python爬虫 requests查看内容的两种方式

2018-02-26
阅读 1 分钟
3.4k
在使用r=request.get(url)获取网站响应之后,我们可以通过两种模式查看内容。r.text r.content r.text返回的是处理过的Unicode型的数据,而使用r.content返回的是bytes型的二进制数据 r.text 可以用于读取文本r.content 可以读取图片,文件

80行代码爬取豆瓣Top250电影信息并导出到csv及数据库

2017-11-11
阅读 2 分钟
10k
查看源码 1 下载页面并处理 {代码...} 2 提取数据 观察该网站html结构 可知该页面下所有电影包含在 ol 标签下。每个 li 标签包含单个电影的内容。 使用XPath语句获取该ol标签 {代码...} 在ol标签中遍历每个li标签获取单个电影的信息。 以电影名字为例 {代码...} 其余部分详见源码 3 页面跳转 检查“后页”标签。跳转到下一...

两个list的对应元素操作

2017-10-22
阅读 1 分钟
27.4k
map()函数接受两个参数,一个是函数,一个是序列,map将传入的函数作用到序列的每个元素,并返回一个可以列表化的map对象。(python2直接返回列表)

用python3爬虫的一些准备工作

2017-10-22
阅读 1 分钟
3.1k
识别网站所用技术 python3.6 安装builtwith模块 {代码...} 寻找网站所有者 {代码...} {代码...} ---------- 下载网页 {代码...} 查询域名是否被注册 {代码...} 网页解析 python2为 urlparse {代码...}