新手上路，请多包涵

我一直在努力使用 python regex 尝试匹配文本中的段落，但我没有成功。我需要获取段落的开始和结束位置。

一段文字的例子：

 Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum.

Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.

Ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.

在这个例子中，我想分别匹配所有以 Lorem、Stet 和 Ipsum 开头的段落（没有空行）。有谁知道如何做到这一点？

原文由 chtenb 发布，翻译遵循 CC BY-SA 4.0 许可协议

python 正则表达式 paragraph

阅读 1.5k

2 个回答

得票最新

社区维基

发布于
2023-01-09

✓ 已被采纳

您可以像这样拆分双换行符：

 paragraphs = re.split(r"\n\n", DATA)

编辑： 要将段落捕获为匹配项，以便您可以获得它们的起点和终点，请执行以下操作：

 for match in re.finditer(r'(?s)((?:[^\n][\n]?)+)', DATA):
   print match.start(), match.end()

# Prints:
# 0 214
# 215 298
# 299 589

原文由 RichieHindle 发布，翻译遵循 CC BY-SA 3.0 许可协议

社区维基

发布于
2023-01-09

使用 split 是一种方法，您也可以像这样使用正则表达式：

 paragraphs = re.search('(.+?\n\n|.+?$)',TEXT,re.DOTALL)

.+? 是惰性匹配，它将匹配使整个正则表达式匹配的最短子字符串。否则，它只会匹配整个字符串。

所以基本上在这里我们想要找到一个字符序列（ .+? ），以空行（ \n\n ）或字符串结尾（ $ ）结束。 re.DOTALL 标志使点也匹配换行符（我们还想匹配一个由三行组成的段落，其中没有空行）

原文由 justhalf 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

如何使用正则表达式匹配段落

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

如何使用正则表达式匹配段落

你尚未登录，登录后可以

字节的 trae AI IDE 不支持类似 vscode 的 ssh remote 远程开发怎么办？

DataCap 中验证码无法显示，后台出现 NullPointerException 错误?

发现深拷贝和浅拷贝效果一致：请问一下有什么区别呢？

如何实现一个深拷贝函数？

Python 成员变量在多个子类实例间共享，如何避免？

分解质因素的算法很难，理解不了。 请问有哪位大佬可以进行解释一下呢？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

Stack Overflow 翻译

分解质因素的算法很难，理解不了。请问有哪位大佬可以进行解释一下呢？