请教下,文本类的页面解析怎样又精准效率又高?

做爬虫的时候,经常会遇见对方页面是文本类的,前后关键词又换来换去,希望能有同行来探讨一下,怎样解析文本类的页面更好。
文本类页面比如:

clipboard.png

1.如果页面很规整,无论BeautifulSoup,Xpath,还是re,都还ok;而BS和Xpath都是基于定位的,位置换了就不灵了。
2.希望用关键词,刚开始学的时候,用了如下方法:

clipboard.png

没错,很蠢,但比较准,也只是懒到往前后加关键词即可,无论有多少相关关键词。
3.后来尝试用了正则表达式,语言精炼了些,但是碰到前后关键词太多时,有可能出现匹配错的时候(当然,前后关键词少的时候正则表达式更好)。
正则表达式刚学,类似如下(其他项目的):

clipboard.png

所以想问下有没有大神,探讨下如何解析这种文本类的页面?

阅读 3.3k
3 个回答

如果有时间有精力的话,你可以尝试一下文本识别的机器学习,用神经网络,输入的是全文的单个中文字,然后通过模拟神经网络移动来理解文本意思。
我是不是跑题了?如果只是搜索文字的话,用死循环查询就好了,参考各类编译器对于代码的解析。

如果界面内容规范的话,可以考虑选择器抽取,比如xpath lxml 之类的.

新手上路,请多包涵

可用“工程名称”,“招标单位”等这些项目名称作为前缀,再结合xpath搞定,相当稳定的。不论它怎么换位置,只要项目名称不变,就能准确提取项目内容。

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题