nodejs如何获取文章内第一张图片的链接?

基本上是文章里有插入图片,而这个图片的链接是外链图片,因为不懂NODEJS,所以不知道该如何获取文章内的第一个图片的链接。希望知道的人可以帮忙解答,非常感谢!~

备注:因为只可以使用NODEJS所以无法使用javascript和jquery,用了就报错。

阅读 4.1k
5 个回答

用正则,或者用cherrio https://cnodejs.org/topic/520...

另外,nodejs的代码就是javascript,jquery.js在node中也是可以使用的,其实cherrio就是jquery.js的简版。

node端没有浏览器环境,所有没有document,window这些浏览器对象,只有js可以用,你是怎么获取网页的 ? http或者fs模块都可以。
读取网页后用正则判断第一个img标签,拿到里面的src就可以

思路是

  • 可选操作 将注释剔除掉 <!--....-->
  • 截取 <body></body> 元素里的内容 记 content
  • 从 content 里截取 文章内容块 <article></article> 里的内容 记 article
  • 从 article 截取第一个 <img .../> 标签定义 记 coverPicTag
  • 从 coverPicTag 里 截取 src 属性 src="...." 引号里的值 记 coverPicUrl

这个截取的方式 可以很多实现办法,比如你 jquery('html').find(...) 或用其他 DOM的解析器,这个性能太大, 或者 用正则来模式匹配下,如果觉得写正则写不太好,那就 直接用字符串查找 特征性字符段查找

你用了cheerio之后 $('img')可能会选择所有的img标签 你把选择器 选对试试

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题