requests-html 怎么获取一个 标签的innerText
def stage_catch():
session = HTMLSession()
r = session.get('http://www.dmzx.com/manhua/358/')
div = r.html.find('.subsrbelist')
list_a = div[0].find('ul')[0].find('a') # 找到对应目录列表
for a in list_a:
print(a)
print(a.attrs)
print(a.text)
# pages = re.sub("\D", "", total_pages)
# print(pages)
pass
if __name__ == '__main__':
stage_catch()
这个是我对应的节点
<a href="http://www.dmzx.com/manhua/358/2000089062.html" title="第360话" target="_blank">
<span class="red">第360话</span>
(18页)
</a>
<Element 'a' href='http://www.dmzx.com/manhua/358/2000089062.html' title='第360话' target='_blank'>
{'href': 'http://www.dmzx.com/manhua/358/2000089062.html', 'title': '第360话', 'target': '_blank'}
全职猎人 (第360话) (18页)
这是我的三次输出。 我使用a.text
输出的时候不是
我想调用类似 a.innerText
直接获取到innerText
也就是"(18页)",但是没有这个方法。
我暂时转成字符串然后处理对应的字符串了。。。。
我想知道对于这些python库我有什么办法测试他有什么对应的js中的方法。
我试了下dir(a)
获取到了方法,和text有关的都试了一次页发现不行。。。。
如果你有jquery基础的话用pyquery库吧