lxml 提取本节点下包含换行符的文本

lxml提取本节点下文本,文本中包含换行符,请问如何提取本节点下文本,谢谢!!

网页源码:

<div class="msgCnt cntcolor">

                                <div style="width:850px;word-break: break-all; white-space: normal; word-wrap: break-word;">
                                    <a href="allQuestionsForQuestioner.do?condition.questioner=我要赚大钱" target="_blank" class="blue1">我要赚大钱</a>
                                    <span class="red1">问</span>
                                    <a href="http://irm.cninfo.com.cn/ssessgs/S000595" target="_blank" class="blue2">*ST宝实(000595)</a>
                                    你好呀,如公司收购桂林威海船舶电器公司成功,能合并桂林威海船舶电器公司2017年报表吗?
                                </div>
                            </div>

                                    

提取内容的代码:

question = self.res.xpath('//div[@class="msgBox"]//div[@class="msgCnt cntcolor"]//div')[0]

输出时只能输出第一行

阅读 3.5k
2 个回答

已经解决:

采用了简单粗暴的方法,遍历每个元素的text...

        target_answer = [ele.strip()
                         for ele in self.res.xpath('//div[@class="answerBox"]//div[@class="msgCnt cntcolor"]/text()')
                         if len(ele.strip()) > 0]

后面[0]去了,用.string

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题