python学习 - SegmentFault 思否

python爬虫 requests查看内容的两种方式

2018-02-26

阅读 1 分钟

3.7k

在使用r=request.get(url)获取网站响应之后，我们可以通过两种模式查看内容。r.text r.content r.text返回的是处理过的Unicode型的数据，而使用r.content返回的是bytes型的二进制数据 r.text 可以用于读取文本r.content 可以读取图片，文件

80行代码爬取豆瓣Top250电影信息并导出到csv及数据库

homura

2017-11-11

阅读 2 分钟

10.4k

查看源码 1 下载页面并处理 {代码...} 2 提取数据观察该网站html结构可知该页面下所有电影包含在 ol 标签下。每个 li 标签包含单个电影的内容。使用XPath语句获取该ol标签 {代码...} 在ol标签中遍历每个li标签获取单个电影的信息。以电影名字为例 {代码...} 其余部分详见源码 3 页面跳转检查“后页”标签。跳转到下一...

两个list的对应元素操作

homura

2017-10-22

阅读 1 分钟

27.9k

map()函数接受两个参数，一个是函数，一个是序列，map将传入的函数作用到序列的每个元素，并返回一个可以列表化的map对象。（python2直接返回列表）

用python3爬虫的一些准备工作

homura

2017-10-22

阅读 1 分钟

3.5k

识别网站所用技术 python3.6 安装builtwith模块 {代码...} 寻找网站所有者 {代码...} {代码...} ---------- 下载网页 {代码...} 查询域名是否被注册 {代码...} 网页解析 python2为 urlparse {代码...}