from mechanize import Browser
br = Browser()
br.open('http://somewebpage')
html = br.response().readlines()
for line in html:
print line
在 HTML 文件中打印一行时,我试图找到一种只显示每个 HTML 元素的内容而不是格式本身的方法。如果它找到 '<a href="whatever.example">some text</a>'
,它只会打印“一些文本”, '<b>hello</b>'
打印“你好”等。一个人会怎么做呢?
原文由 directedition 发布,翻译遵循 CC BY-SA 4.0 许可协议
我总是使用这个函数来去除 HTML 标签,因为它只需要 Python 标准库:
对于 Python 3:
对于 Python 2: