Python逐行读取txt中的url文件并进行爬虫

发布于
2016-04-15

毕设项目需要爬取coursera的课程数据，已经把所有课程的url链接爬下来了，存在了txt中，一行是一个课程的url，现在想要获取每门课程的详细信息，如instructor，syllabus 和detail information这几项，但是都需要点进各个课程的网页链接中取爬取。码渣求大神指导一下，来段伪码就更好啦！thx

python php javascript

java html

阅读 10.7k

2 个回答

得票最新

zengfanrong

16516

发布于
2016-04-15

✓ 已被采纳

你好！不知道这是不是你想要的答案：

f = open("coursera.txt","r")
urlList = f.readlines()
for url in urlList:
    r = requests.get(url)
    ''''''

Good Luck ! ^_<

已注销

1.1k117

发布于
2016-04-16

如果是爬取coursera的课程数据，建议你用scrapy爬取，这样不需要提前抓取所有课程的url，只要写好匹配url就行。

scrapy教程 http://scrapy-chs.readthedocs.org/zh_CN/0.24/intro/tutorial.html
项目参考 https://github.com/Junnplus/OnlineJudgeCrawlerCore

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Python逐行读取txt中的url文件并进行爬虫

你尚未登录，登录后可以

js 如何将Key属性相同的放在同一个数组？

小网站有必要将图片放到阿里云OSS存储吗？

为什么在谷歌浏览器中 'a' == ['a'] 返回 true？

vue项目如何在初始化之前跳转外部页面？

js如何控制移动端overflow:scroll容器滑动的最大速度？

Spring中的两个疑惑?

前端代码更新如何通知用户刷新页面？