如何整理爬虫抓取信息的格式?

例如我需要爬很多网站的新闻、文章页。我需要提取对应页面的标题、内容、发布时间等信息。但每个网站的页面格式不一样,难道我要给每个网站写一个爬虫吗?
还有,信息被抓取来后,每个网站个信息格式也不同,我需要调整为我网站的格式,有没有一套可以适用于所有格式的调整方法?

阅读 3.3k
1 个回答

1.如何抓取多个网站的文章?
答:不同的网站,意味着html结构、分页格式都会不一样,只能针对不同的网页,写不同的解析程序。
2.如何整理爬虫信息?
答:你肯定是知道要抓取什么内容的不是吗?如标题,内容,作者等等,无非就是key-value,将值存在数据库对应的字段即可。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进