例如我需要爬很多网站的新闻、文章页。我需要提取对应页面的标题、内容、发布时间等信息。但每个网站的页面格式不一样,难道我要给每个网站写一个爬虫吗?
还有,信息被抓取来后,每个网站个信息格式也不同,我需要调整为我网站的格式,有没有一套可以适用于所有格式的调整方法?
例如我需要爬很多网站的新闻、文章页。我需要提取对应页面的标题、内容、发布时间等信息。但每个网站的页面格式不一样,难道我要给每个网站写一个爬虫吗?
还有,信息被抓取来后,每个网站个信息格式也不同,我需要调整为我网站的格式,有没有一套可以适用于所有格式的调整方法?
1.如何抓取多个网站的文章?
答:不同的网站,意味着html结构、分页格式都会不一样,只能针对不同的网页,写不同的解析程序。
2.如何整理爬虫信息?
答:你肯定是知道要抓取什么内容的不是吗?如标题,内容,作者等等,无非就是key-value,将值存在数据库对应的字段即可。