怎么用nodejs分析出爬的不同网页那部分是文章标题和内容而不是页面的其他元素,有相关资料吗
如果是特定的网站,可以根据其页面做些匹配。 如果想兼容所有的网站就很难了。只根据标签名识别肯定不准。应该有神经网络,机器学习之类的算法。
可以使用cheerio模块比较方便。 例子:http://www.focalhot.com/blog/62.html
内容主题可以尝试用行块密度 标题只能找h1-h3这种标签了
3 回答2.5k 阅读✓ 已解决
5 回答2.5k 阅读
1 回答822 阅读✓ 已解决
2 回答1.1k 阅读
2 回答1.5k 阅读
2 回答487 阅读✓ 已解决
1 回答590 阅读✓ 已解决
1 回答7.8k 阅读✓ 已解决
4 回答7.6k 阅读
3 回答4.8k 阅读✓ 已解决
1 回答8.3k 阅读✓ 已解决
2 回答6.2k 阅读✓ 已解决
如果是特定的网站,可以根据其页面做些匹配。
如果想兼容所有的网站就很难了。只根据标签名识别肯定不准。应该有神经网络,机器学习之类的算法。