Python爬虫怎么爬取不同网页的固定内容

jasonusaco

5148

发布于
2019-07-22

Sunny

5.3k155085

更新于
2019-07-22

新手上路，请多包涵

问题描述

我现在有一个网站域名列表，里面有数万个域名，想先定位到每个网站的sitemap，然后把每个sitemap里面的新闻，财经，科技三个大类的url抓取出来，但是因为每个网站结构都不一样，想用一个爬虫很难实现，有人建议可以训练一个模型来识别，但不知道具体步骤，或者有什么别的方式可以推荐一下吗？求大神解答！提供一下思路即可！

网页爬虫 scrapy

python

阅读 6.8k

2 个回答

得票最新

看近行远

271868110

发布于
2019-07-25

·确定每个网站都有sitemap吗？
·sitemap里更新的链接及时吗？
如果都可以抓到文章页，提取新闻正文（newspaper）等很多库都可以做，但是效率不高。至于时间、作者，只能写通用规则提取了（不一定准且不一定能提取到）。
一个爬虫做不到，因为访问不同的网站可能就需要不同的方式、验证。

HelloGitHub

12624

发布于
2019-07-29

如果是内容的话，正则。比如：爬去获取 github 项目的的正则：

pattern = re.compile(r'https://github.com/[^\s]*')
match = pattern.search(raw_str)
if match:
    github_url = match.group()

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Python爬虫怎么爬取不同网页的固定内容

问题描述

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

这段代码为什么不能获取到数据？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

如何使用 python 代码实现迅雷磁力链接资源的下载？

在PyCharm开发不同python项目，如果每个项目使用自己的venv环境，是不是每次切换项目都需要修改python interpreter？