本节是通过函数,查看值包含了哪些字符串,有点像搜索关键词
主要的函数是:
str.*()
str.len() 长度
str.contains() 包含**字符
书中用到的是通过查找关键词,查看包含这些原料的菜谱有哪些。 结合现在的,我觉得可以在处理推广数据时,通过设置好的参数来分析url中的用户来源。
查看了word列的字符串长度,平均搜索词的长度为8.8,75%是搜索词在10个以内,最长的有95个字符
df.word.str.len().describe()
Out:
count 2324.000000
mean 8.767642
std 4.695302
min 0.000000
25% 6.000000
50% 8.000000
75% 10.000000
max 95.000000
Name: word, dtype: float64
查看字符大于50个的数据,执行代码后只有2条数据。
df[df.word.str.len() > 50]
# 如果想查看字符串长度大于30的数据有多少条,可以用
df[df.word.str.len() > 30].count()
Out:
date 15
id 15
word 15
rank1 15
number1 15
url 15
dtype: int64
-- 查找是否包含某些字符
str.contains
#word列包含‘家’字的数据是什么
df[df.word.str.contains('家')]
还可以用input()的方法,来查找输入的字符是否在word列中
keyw = input()
df[df.url.str.contains(keyw)
就这样,下节学习时间格式的处理,然后第3章就结束了,拜拜。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。