lxml 提取本节点下包含换行符的文本

发布于
2017-08-18

新手上路，请多包涵

lxml提取本节点下文本,文本中包含换行符,请问如何提取本节点下文本,谢谢!!

网页源码:

                                <div style="width:850px;word-break: break-all; white-space: normal; word-wrap: break-word;">
                                    <a href="allQuestionsForQuestioner.do?condition.questioner=我要赚大钱" target="_blank" class="blue1">我要赚大钱</a>
                                    <span class="red1">问</span>
                                    <a href="http://irm.cninfo.com.cn/ssessgs/S000595" target="_blank" class="blue2">*ST宝实(000595)</a>
                                    你好呀，如公司收购桂林威海船舶电器公司成功，能合并桂林威海船舶电器公司2017年报表吗？
                                </div>
                            </div>

提取内容的代码:

question = self.res.xpath('//div[@class="msgBox"]//div[@class="msgCnt cntcolor"]//div')[0]

输出时只能输出第一行

python html

阅读 3.5k

2 个回答

新手上路，请多包涵

已经解决:

采用了简单粗暴的方法,遍历每个元素的text...

        target_answer = [ele.strip()
                         for ele in self.res.xpath('//div[@class="answerBox"]//div[@class="msgCnt cntcolor"]/text()')
                         if len(ele.strip()) > 0]