本文是译文,可以转载,但需注明出处,点击这里可以获取原文,有删减。
本系列博文包含四篇文章:
【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15
【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30
【译】技能测试解决方案:Python中的数据科学(三)——Q31-Q45
【译】技能测试解决方案:Python中的数据科学(四)——A1-A45及其解释

Q31
图片描述
下列哪行代码可以把 “Date_time_of_event” 变量中的日期替换为当月第一天的日期?

A - train['Date_time_of_event'] = train.Date_time_of_event.apply(lambda x: x.replace(day=1))
B - >>> train['month'] = train.Date_time_of_event.dt.month; train['year'] = train.Date_time_of_event.dt.year
    >>> train['day'] = 1
    >>> train['Date_time_of_event'] = train.apply(lambda x:pd.datetime.strptime("{0} {1} {2}".format(x['year'],x['month'], x['day']), "%Y %m %d"),axis=1)
C - A和B均可以
D - 以上选项都不能

Q32
图片描述
上述数据集提供每日必需品费用,下列哪行代码可以汇总出每天的累计成本?

A - a.sumcum(axis=0)
B - a.cumsum(axis=1)
C - a.sumcum(axis=1)
D - a.cumsum(axis=0)

Q33
图片描述
图片描述

给定训练集,学生集和实习集3个数据集,我们需要合并这些数据集,使得合并后的训练数据必须具有来自学生集的学生信息和来自实习集的实习信息。

train=pd.merge(train,internship,on=’_____’,how=’____’)
train=pd.merge(train,student,on=’_____’,how=’____’)

为了实现上述需求,需要补充如下代码:

A - Student_ID, outer, Internship_ID, inner
B - Internship_ID, right, Student_ID, inner
C - Internship_ID, inner, Student_ID, under
D - Internship_ID, inner, Student_ID, inner

Q34
图片描述
上述数据集中,存在重复行。在关联该数据集时,重复行会带来一定的困扰,为了避免这个困扰,我们只保留重复数据第一个出现的样本。

student.______(subset=[‘Student_ID’],keep=_____,inplace=____)

为了实现上述需求,需要补充哪些代码?

A - drop_same, first, True
B - drop_duplicates, first, False
C - drop_same, last, True
D - drop_duplicates, first, True

Q35
图片描述

下列哪行代码可以提取上述字符串中的邮箱地址?

A - match=re.search(r"\w+@\w+",string)
B - match=re.findall(r"[\w._]+@[\w.]+",string)
C - match=re.purge(r"[\w._]+@[\w.__]+",string)
D - match=re.compile(r"[\w._]@[\w.]",string)

Q36
图片描述

下列哪行代码可以删除“sleep”行的数据?

A - train.drop("sleep", axis=1)
B - train.dropna("sleep", axis=1)
C - train.drop("sleep", axis=0)
D - 以上选项都不能

Q37
图片描述

train=train.drop(['Preferred_location','Minimum_Duration'],___________)

上述代码需要添加哪些代码才能实现把'Preferred_location'变量和'Minimum_Duration'变量从测试集中删除?

A - axis=0
B - axis=1
C - inplace=True
D - inplace=False

Q38
图片描述
图片描述
上述数据集是San Fransisco地区不同犯罪类型的训练数据集。
下列哪行代码可以绘制不同类型犯罪总数的直方图?

A - train.Category.plot(kind='bar')
B - train.Category.hist()
C - train.Category.value_counts().plot(kind='bar')
D - 以上选项都不能

Q39
图片描述
下列哪行代码可以绘制出上述数据集中“Credit_History”变量和“Loan_Status”变量的堆叠条形图?

A - train.unstack().plot(kind='bar',stacked=True, color=['red','blue'], grid=False)
B - train.restack().plot(kind='bar',stacked=True, color=['red','blue'], grid=False)
C - train.restack().plot(kind='bar',stacked=False, color=['red','blue'], grid=False)
D - 以上选项都不能

Q40
图片描述

下列代码可以绘制出“temp”变量和“atemp”变量之间的散点图:

plt.scatter(train.temp,train.atemp,alpha=1,c='b',s=20)

如何修改上述代码,以实现总数越多,颜色则越深?

A - plt.scatter(train.temp,train.atemp,alpha=1,c=train.Count.value_counts,s=20)
B - plt.scatter(train.temp,train.atemp,alpha=1,c=train.Count,s=20)
C - plt.scatter(train.temp,train.atemp,alpha=1,s=20,color=train.Count)
D - plt.scatter(train.temp,train.atemp,alpha=1,s=20,c=w)

Q41
图片描述
上述数据集中,我们假设“temp”变量的季节性变化可能会影响“Count”变量,绘制两者的箱型图可以检验这个假设。
下列哪行代码可以实现这个需求?

A - train.boxplot(column='season', by='temp')
B - train.boxplot(ax='temp', by='season')
C - train.boxplot(ax='temp', column='season')
D - train.boxplot(column='temp', by='season')

Q42
图片描述
绘制直方图是观察变量频率的一种可视化方法,下列哪行代码可以实现绘制‘temp’ 变量分箱为50的直方图?

A - train.hist(column='temp')
B - train.hist(column='temp', bin_size=50)
C - train.hist(column='temp', bins=50)
D - 以上选项都不能

Q43
图片描述
绘制自相关图,可以让你看到uf时间序列是非随机的,则一个或多个自相关将显着非零。
下列哪行代码可以绘制“temp” 变量的自相关图?

A - pd.tools.plotting.autocorr(train.temp)
B - pd.tools.plot.autocorr(train.temp)
C - pd.tools.plotting.autocorrelation_plot(train.temp)
D - 以上选项都不能

Q44
图片描述
图片描述
图片描述
上述图形展示了周一到周日每天每个小时房屋出租的数量。

>>> fig=plt.figure()
>>> for i in range(0,7):
>>>     fig.add_subplot(3,3,____)
>>>     t1=train[train['______']==i] 
>>>     t1.________(['hour'])['count'].sum().plot(kind='bar')

根据已知的数据集,上述代码需要添加哪些代码才能绘制出如上的图形?

A - i+1, day, groupby
B - i, day, groupby
C - i, Count, groupby
D - i, day, value_counts

Q45
图片描述

>>> train.________(['Year','Gender']).size()._____[1880]

如果需要汇总出1880年男孩和女孩的数量,上述代码需要添加哪些代码?

A - groupby, idx
B - groupby, loc
C - groupby, iloc
D - value_counts, iloc

友情链接:
【译】技能测试解决方案:Python中的数据科学(一)——Q1-Q15
【译】技能测试解决方案:Python中的数据科学(二)——Q16-Q30
【译】技能测试解决方案:Python中的数据科学(四)——A1-A45及其解释


zhongkailv
10 声望4 粉丝