数据科学 第 3 章 11 字符串处理

本节是通过函数，查看值包含了哪些字符串，有点像搜索关键词
主要的函数是：
str.*()
str.len() 长度
str.contains() 包含**字符

书中用到的是通过查找关键词，查看包含这些原料的菜谱有哪些。结合现在的，我觉得可以在处理推广数据时，通过设置好的参数来分析url中的用户来源。

查看了word列的字符串长度，平均搜索词的长度为8.8，75%是搜索词在10个以内，最长的有95个字符

df.word.str.len().describe()

Out：
count    2324.000000
mean        8.767642
std         4.695302
min         0.000000
25%         6.000000
50%         8.000000
75%        10.000000
max        95.000000
Name: word, dtype: float64

查看字符大于50个的数据，执行代码后只有2条数据。

df[df.word.str.len() > 50]

# 如果想查看字符串长度大于30的数据有多少条，可以用
df[df.word.str.len() > 30].count()

Out:
date       15
id         15
word       15
rank1      15
number1    15
url        15
dtype: int64

-- 查找是否包含某些字符

str.contains

#word列包含‘家’字的数据是什么
df[df.word.str.contains('家')]

还可以用input()的方法，来查找输入的字符是否在word列中

keyw = input()
df[df.url.str.contains(keyw)

就这样，下节学习时间格式的处理，然后第3章就结束了，拜拜。

数据科学第 3 章 11 字符串处理

-- 查找是否包含某些字符

xiaom

引用和评论

数据科学第 5 章主成分分析（降维）、相关性

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

数据科学 第 3 章 11 字符串处理

-- 查找是否包含某些字符

xiaom

引用和评论

数据科学 第 5 章 主成分分析（降维）、相关性

如何减少跨团队交付摩擦？——基于 DevOps 与敏捷的最佳实践

科学计算编程涉及到的技术栈简介

使用 chardet 判断文件编码需要注意的坑——过大的文件会导致高耗时

Python3 格式化时间（qbit）

本地使用PaddleOCR进行图片识别获得文字（返回JSON）

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总

数据科学第 3 章 11 字符串处理

数据科学第 5 章主成分分析（降维）、相关性