怎么用nodejs分析出爬的不同网页那部分是文章标题和内容主体,有相关资料吗

怎么用nodejs分析出爬的不同网页那部分是文章标题和内容而不是页面的其他元素,有相关资料吗

阅读 3.4k
3 个回答

如果是特定的网站,可以根据其页面做些匹配。
如果想兼容所有的网站就很难了。只根据标签名识别肯定不准。应该有神经网络,机器学习之类的算法。

新手上路,请多包涵

内容主题可以尝试用行块密度
标题只能找h1-h3这种标签了

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题