xpath中可以插入正则表达式吗？

TG95

发布于
2014-12-16

想要爬取一个网站，这个网站的不同网页的正文部分的xpath是不一样的，比如：
有个页面的正文部分是：//*[@id='postmessage_32199']
另一个是：//*[@id='postmessage_32153']
......
它们的格式是postmessage_xxxxx,x为数字。

我的问题是：xpath中可以使用用正则表达式吗？如果不能那怎么匹配这么多不同的xpath？

ps:我是用的是python的scrapy框架

提前感谢各位了。

xpath 正则表达式

阅读 15.6k

1 个回答

足兆叉虫

发布于
2014-12-16

更新于
2014-12-16

✓ 已被采纳

你用 https://github.com/binux/pyspider 我就告诉你

//*[starts-with(@id, "postmessage_")]
或者
doc.xpath(r'//*[re:match(@id, "postmessage_\d+")]', namespaces={"re": "http://exslt.org/regular-expressions"})

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题