请教下，文本类的页面解析怎样又精准效率又高?

做爬虫的时候，经常会遇见对方页面是文本类的，前后关键词又换来换去，希望能有同行来探讨一下，怎样解析文本类的页面更好。
文本类页面比如：

1.如果页面很规整，无论BeautifulSoup,Xpath,还是re，都还ok；而BS和Xpath都是基于定位的，位置换了就不灵了。
2.希望用关键词，刚开始学的时候，用了如下方法：

没错，很蠢，但比较准，也只是懒到往前后加关键词即可，无论有多少相关关键词。
3.后来尝试用了正则表达式，语言精炼了些，但是碰到前后关键词太多时，有可能出现匹配错的时候（当然，前后关键词少的时候正则表达式更好）。
正则表达式刚学，类似如下（其他项目的）:

所以想问下有没有大神，探讨下如何解析这种文本类的页面？

阅读 3.3k

3 个回答

得票最新

如果有时间有精力的话，你可以尝试一下文本识别的机器学习，用神经网络，输入的是全文的单个中文字，然后通过模拟神经网络移动来理解文本意思。
我是不是跑题了？如果只是搜索文字的话，用死循环查询就好了，参考各类编译器对于代码的解析。

如果界面内容规范的话,可以考虑选择器抽取,比如xpath lxml 之类的.

新手上路，请多包涵

可用“工程名称”，“招标单位”等这些项目名称作为前缀，再结合xpath搞定，相当稳定的。不论它怎么换位置，只要项目名称不变，就能准确提取项目内容。

撰写回答

推荐问题

相似问题

找不到问题？创建新问题