新手上路，请多包涵

我正在尝试使用 Python 将 html 块转换为文本。

输入：

 <div class="body"><p><strong></strong></p>
<p><strong></strong>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. <a href="http://example.com/" target="_blank" class="source">Some Link</a> Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p>
<p>Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa</p></div>

期望的输出：

Lorem ipsum dolor sit amet, consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。埃尼亚马萨

Consectetuer adipiscing 精英。一些 Link Aenean commodo ligula eget dolor。埃尼亚马萨

Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。埃尼亚马萨

Lorem ipsum dolor sit amet, consectetuer adipiscing elit。 Aenean commodo ligula eget dolor。埃尼亚马萨

Consectetuer adipiscing 精英。 Aenean commodo ligula eget dolor。埃尼亚马萨

我尝试了 html2text 模块但没有成功：

 #!/usr/bin/env python

import urllib2
import html2text
from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(urllib2.urlopen('http://example.com/page.html').read())

txt = soup.find('div', {'class' : 'body'})

print(html2text.html2text(txt))

txt 对象生成上面的 html 块。我想将其转换为文本并打印在屏幕上。

原文由 Aaron Bandelli 发布，翻译遵循 CC BY-SA 4.0 许可协议

python html web-scraping text beautifulsoup

阅读 773

2 个回答

得票最新

社区维基

发布于
2022-12-15

✓ 已被采纳

soup.get_text() 输出你想要的：

 from bs4 import BeautifulSoup
soup = BeautifulSoup(html)
print(soup.get_text())

输出：

 Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Consectetuer adipiscing elit. Some Link Aenean commodo ligula eget dolor. Aenean massa
Aenean massa.Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa
Consectetuer adipiscing elit. Aenean commodo ligula eget dolor. Aenean massa

要保留换行符：

 print(soup.get_text('\n'))

为了与您的示例相同，您可以用两个换行符替换一个换行符：

 soup.get_text().replace('\n','\n\n')

原文由 root 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2022-12-15

可以使用 python 标准 html.parser ：

 from html.parser import HTMLParser

class HTMLFilter(HTMLParser):
    text = ""
    def handle_data(self, data):
        self.text += data

f = HTMLFilter()
f.feed(data)
print(f.text)

原文由 FrBrGeorge 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

使用 Python 将 html 转换为文本

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

问一个鼠标滚动事件，这种是怎么实现的？

form对象根据表单dom元素的name属性获取元素对象是基于什么标准的？兼容性如何？

Stack Overflow 翻译