新手上路，请多包涵

我在使用 BeautifulSoup 时注意到一些奇怪的事情，并且找不到任何文档来支持这一点，所以我想在这里问一下。

假设我们有一个像这样的标签，我们已经用 BS 解析了：

 <td>Some Table Data</td>
<td></td>

官方记录的提取数据的方法是 soup.string 。然而，这为第二个 <td> 标签提取了一个 NoneType。所以我尝试 soup.text （因为为什么不呢？）它完全按照我的需要提取了一个空字符串。

但是我在文档中找不到对此的任何参考，并且担心有什么遗漏。谁能告诉我这是否可以使用，或者以后会不会引起问题？

顺便说一句，我正在从网页中抓取表格数据，并打算从数据中创建 CSV，因此我实际上需要空字符串而不是 NoneTypes。

原文由 mez.pahlan 发布，翻译遵循 CC BY-SA 4.0 许可协议

阅读 800

2 个回答

得票最新

✓ 已被采纳

.string 在一个 Tag 类型的对象上返回一个 NavigableString 类型的对象。另一方面， .text 获取所有子字符串并使用给定的分隔符连接返回。 .text 的返回类型是 unicode 对象。

根据文档，A NavigableString 就像 Python Unicode 字符串，除了它还支持导航树和搜索树中描述的一些功能。

从 .string 的文档中，我们可以看到，如果 html 是这样的，

 <td>Some Table Data</td>
<td></td>

然后， .string 在第二个 td 将返回 None 。但是 .text 会返回一个空字符串，它是一个 unicode 类型的对象。

为了更方便，

string

和 text

如果 html 是这样的：

 <td>some text</td>
<td></td>
<td><p>more text</p></td>
<td>even <p>more text</p></td>

.string 在四个 td 将返回，

 some text
None
more text
None

.text 会给出这样的结果，

 some text

more text
even more text

原文由 salmanwahed 发布，翻译遵循 CC BY-SA 4.0 许可协议

如果一个标签包含不止一个东西，那么不清楚 .string 应该指代什么，所以 .string 被定义为 None：

例子：

 <td>sometext<p>sometext</p></td>

如果出现以下情况，上面的代码将返回 NoneType： td.string 已完成，因为 td 包含文本以及另一个 p 标签。但是 td.text 会给出：sometextsometext

原文由 Raju Thapa EverestBlogger 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

推荐问题

.string 和 .text BeautifulSoup 的区别