如何整理爬虫抓取信息的格式？

Question

例如我需要爬很多网站的新闻、文章页。我需要提取对应页面的标题、内容、发布时间等信息。但每个网站的页面格式不一样，难道我要给每个网站写一个爬虫吗？
还有，信息被抓取来后，每个网站个信息格式也不同，我需要调整为我网站的格式，有没有一套可以适用于所有格式的调整方法？

阅读 3.3k

1 个回答

得票最新

1.如何抓取多个网站的文章？
答：不同的网站，意味着html结构、分页格式都会不一样，只能针对不同的网页，写不同的解析程序。
2.如何整理爬虫信息？
答：你肯定是知道要抓取什么内容的不是吗？如标题，内容，作者等等，无非就是key-value，将值存在数据库对应的字段即可。

撰写回答

相似问题

找不到问题？创建新问题