链接
https://gaokao.chsi.com.cn/zsgs/zhangcheng/listVerifedZszc
--infoId-4543757002,method-view,schId-1940.dhtml
有大佬知道<div class="content zszc-content UEditor">下的全部内容怎么用xpath获取吗?怎么写为word文档,求大佬告知,谢谢!
上面是文章链接
链接
https://gaokao.chsi.com.cn/zsgs/zhangcheng/listVerifedZszc
--infoId-4543757002,method-view,schId-1940.dhtml
有大佬知道<div class="content zszc-content UEditor">下的全部内容怎么用xpath获取吗?怎么写为word文档,求大佬告知,谢谢!
上面是文章链接
用BeautifulSoup4会更轻松点,不需要用到xpath
pip install BeautifulSoup
from bs4 import BeautifulSoup
...
...
html = resp.content
soup = BeautifulSoup(html)
target = soup.find('div', attrs={'class': 'content zszc-content UEditor'})
print(target.text)
4 回答4.5k 阅读✓ 已解决
1 回答3.3k 阅读✓ 已解决
4 回答3.8k 阅读✓ 已解决
3 回答2.2k 阅读✓ 已解决
1 回答4.5k 阅读✓ 已解决
1 回答3.9k 阅读✓ 已解决
1 回答2.8k 阅读✓ 已解决
你可以用Python 的 requests 和 lxml 库实现这个方案,我给你一段我学习时候看过的前人的代码(声明一下,这段代码大概是一年前在另外一个博客网站找pdf转word资料时候找到的,由于忘记链接了,所以备注形式表达对原创者的敬意)
这段代码逻辑简单清晰,相信你也能了解的,当然如果网站本身有反爬机制,就得考虑其他办法了。
——————————————————————————————————————————————————————————————————
下划线:抱歉我误解了楼主的需求,对于获取 div 标签下所有子节点并将其写入 word 文档,可以如下方法操作
头文件中加一个
from docx import Document
然后写(这部分的目的是用前文回答中的XPath 获取整个内容所在 div 元素)
最后是这部分的关键,目的是新建文档,遍历div元素读取到文档中,进行文本符号格式转换清洗整理数据,然后完成保存操作。我们命名保存文件为output。