请问python2.7在获取到网页的html后如何能匹配正文的标题和发布时间

酒鬼
  • 5
新手上路,请多包涵

1:使用goose已经可以爬到meta里的title,但这个标题的内容比正文的标题内容要多一些,例如:meta的title:“艾君:我为何说“闹洞房”从来不是啥好风俗,早该废弃-艾君-搜狐博客”
而正文里的title:“艾君:我为何说“闹洞房”从来不是啥好风俗,早该废弃”,请问如何精准的获取到正文的title呢?
2:如果我能获取到正文里的title,怎么可以精准获取到发布时间呢?
如果是非定向爬取怎么做才好呢?谢谢

回复
阅读 3k
2 个回答
✓ 已被采纳

可以使用beautifulsoup4来对html进行解析

顶楼上,推荐beautifulsoup

宣传栏