做爬虫的时候,经常会遇见对方页面是文本类的,前后关键词又换来换去,希望能有同行来探讨一下,怎样解析文本类的页面更好。
文本类页面比如:
1.如果页面很规整,无论BeautifulSoup,Xpath,还是re,都还ok;而BS和Xpath都是基于定位的,位置换了就不灵了。
2.希望用关键词,刚开始学的时候,用了如下方法:
没错,很蠢,但比较准,也只是懒到往前后加关键词即可,无论有多少相关关键词。
3.后来尝试用了正则表达式,语言精炼了些,但是碰到前后关键词太多时,有可能出现匹配错的时候(当然,前后关键词少的时候正则表达式更好)。
正则表达式刚学,类似如下(其他项目的):
所以想问下有没有大神,探讨下如何解析这种文本类的页面?
如果有时间有精力的话,你可以尝试一下文本识别的机器学习,用神经网络,输入的是全文的单个中文字,然后通过模拟神经网络移动来理解文本意思。
我是不是跑题了?如果只是搜索文字的话,用死循环查询就好了,参考各类编译器对于代码的解析。