Requests库
爬虫必备库,鼎鼎大名,用来发起get、post等请求,可以算是url库在python3的继承者。
BeautifulSoup库
爬虫必备库,也是很有名,用来解析html代码,从中提取有用数据。一般推荐搭配lxml解析库使用,有些代码遇到解析问题,可以尝试用html.parser库替代。
tqdm库
可以用来作进度条,展示程序执行进度,比如爬虫的日志。但是注意,在windows命令行中,无法实现同行刷新,每次都会输出一行新的,就不推荐使用了。(powershell下没试过)
peewee库
用来做数据库模型很好用,当然也可以直接用sqlalchemy库。这个库我个人觉得,比后者学起来要简单一些,而且可以用命令行在模型类和数据库表结构之间一键导入导出。
Arrow库
个人觉得最好用的时间转换库,强烈推荐。支持各种格式,并且api可读性也很好,方便切换前后N天N周等。
PIL库
python最佳图形处理库,我只用它做过图像裁切转换拼接等,据说可以实现逐个像素修改、检测、计算等,在图像识别领域也有很多用途。
OpenPyxl
我个人比较喜欢的office文档处理库,用来处理excel很方便。但是貌似不适用于大批量处理数据,大批量还是推荐pandas库,直接加载csv文件。
Jsonlines库
微信小程序开发可以用用,微信云开发使用的是json lines格式,算是json的变体,转换起来还是有些麻烦的,要自己写一下,用这个可以稍微节省点时间精力。
PyPinyin库
用来把汉字转换拼音的,需要自己写一个函数,把转换好的拼音拼接起来,否则是一个字一个拼音,是数组格式。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。