80行代码爬取豆瓣Top250电影信息并导出到csv及数据库

2017-11-11
阅读 2 分钟
10k
查看源码 1 下载页面并处理 {代码...} 2 提取数据 观察该网站html结构 可知该页面下所有电影包含在 ol 标签下。每个 li 标签包含单个电影的内容。 使用XPath语句获取该ol标签 {代码...} 在ol标签中遍历每个li标签获取单个电影的信息。 以电影名字为例 {代码...} 其余部分详见源码 3 页面跳转 检查“后页”标签。跳转到下一...