xpath下怎么提取包含某个字符串的属性值

发布于
2019-05-13

1.最近在爬取某个网站时，遇到了一个问题，怎么提取包含了某个字符串的属性值？
2.大致内容是这样的：
<a href="thread-115861-1-1.html"
<a href = "javavoid(0)"
我现在只想提取包含"thread"字符串的href属性值，即"thread-115861-1-1.html",请问我应该怎么写？我试过contains，但是contains好像只能对text()进行筛选，对属性值不能进行筛选。
3.希望各位朋友能够不吝赐教，谢谢

html

html5

python

阅读 5.7k

2 个回答

得票最新

magicyangqwe

3711826

发布于
2019-05-14

✓ 已被采纳

已经找到了答案，之前是自己没有了解语法，可以用xpath下的语法，用starts-with或者contains都可以。
具体语法如下：
//a[starts-with(@href,"thread")]/@href
//a[contains(@href,"thread")]/@href

bingo彬哥

2.5k52752

发布于
2019-05-14

不知道题主用BeautifulSoup可不可以？类似这种。

In [1]: from bs4 import BeautifulSoup

In [2]: soup = BeautifulSoup("""
   ...: <a href="thread-115861-1-1.html"></a>
   ...: <a href = "javavoid(0)"></a>
   ...: """)

In [3]: res_list = []
   ...: for item in soup.find_all("a"):
   ...:     if "thread" in item["href"]:
   ...:         res_list.append(item["href"])
   ...:

In [4]: res_list
Out[4]: ['thread-115861-1-1.html']

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

xpath下怎么提取包含某个字符串的属性值

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

H5页面点击按钮使用window.open 打开并展示一个pdf，安卓变成下载了？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

点击dom节点里面的子元素，如何点击的是某个节点？

xpath下怎么提取包含某个字符串的属性值

你尚未登录，登录后可以

Qt中布局是否只有5种呢？

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

这段代码为什么不能获取到数据？

H5页面 点击按钮使用window.open 打开并展示一个pdf，安卓变成下载了？

请问一下，如何理解reduce函数呢？

如何使用Python+Selenium爬取Goodreads上万条书评而不崩溃？

点击dom节点里面的子元素，如何点击的是某个节点？

H5页面点击按钮使用window.open 打开并展示一个pdf，安卓变成下载了？