我一直在努力使用 python regex 尝试匹配文本中的段落,但我没有成功。我需要获取段落的开始和结束位置。
一段文字的例子:
Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum.
Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.
Ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod
tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At
vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren,
no sea takimata sanctus est Lorem ipsum dolor sit amet.
在这个例子中,我想分别匹配所有以 Lorem、Stet 和 Ipsum 开头的段落(没有空行)。有谁知道如何做到这一点?
原文由 chtenb 发布,翻译遵循 CC BY-SA 4.0 许可协议
您可以像这样拆分双换行符:
编辑: 要将段落捕获为匹配项,以便您可以获得它们的起点和终点,请执行以下操作: