一段让人讨厌的html代码,在div里面写入了js。是个键盘翻页的代码
我的xpath是这样写的
发现<p>里面的有标签的内容没了,像这样
<p>我是中国人</p> 得到的是:我是人。中国没有了
然后有人说我这xpath('.//p/text()')这个text前多加一个/,写成
xpath('.//p//text()'),这样是变成“我是中国人”了,但这js又跑进来了,痛苦。
请教一下,我只要text,不要什么标签,不要js代码,怎么写这个xpath呢?
补充一个
data.xpath('string(.)').extract()[0]这种方法不行,js的标签是去掉了,但代码还在那。
对于删除<script>元素:
1)可以参考这篇文章,用strip_elements函数删除<script>元素:
https://www.cnblogs.com/XD00/...
2)或者可以参考这篇的"方法二",用lxml的Cleaner来过滤:
https://www.jianshu.com/p/26e...