要设计实现一个采集系统,怎么样实现输入一个列表链接地址,然后自动解析文章列表和文章内容?有没有什么好的思路?
看你标签是php,那么就默认你是要用php去做啦。
常规的采集器都是给定一个列表的链接地址,然后取得这个连接的内容,之后就是正则了,解析列表的开始部分结束部分。
接下来对列表的内容进行切割,以特定内容切割,获得单条数据的区域块,正则匹配url等
进入详情页,获取想要得到的内容,存储
做起来不难,但是需要耐心
2 回答1.2k 阅读✓ 已解决
2 回答736 阅读✓ 已解决
1 回答937 阅读✓ 已解决
2 回答800 阅读
1 回答799 阅读
1 回答745 阅读
1 回答742 阅读
看你采集什么网址上的啦,然后打算用什么语言