我将示例给到pdf文件(如Healing-Her-Heart.pdf、Don-Quijote.pdf转化成txt后) 这几个txt里的章节分序大都不一样。有的是罗马数字I II III依次类推进行分章,有的是CHAPTER ONE 、CHAPTER 1 、 Chapter One 或者ChapterI ChapterII 这种,我想根据这些章节进行拆分。以此来显示小说内容。
我将示例给到pdf文件(如Healing-Her-Heart.pdf、Don-Quijote.pdf转化成txt后) 这几个txt里的章节分序大都不一样。有的是罗马数字I II III依次类推进行分章,有的是CHAPTER ONE 、CHAPTER 1 、 Chapter One 或者ChapterI ChapterII 这种,我想根据这些章节进行拆分。以此来显示小说内容。
13 回答13.1k 阅读
8 回答3k 阅读
3 回答1.5k 阅读✓ 已解决
2 回答5.3k 阅读✓ 已解决
5 回答1.5k 阅读
5 回答1.6k 阅读
3 回答2.4k 阅读✓ 已解决
这个只能看一些文本, 找规则, 然后拿正则匹配拆了. 比如关键字Chapter , 前面有空行之类的规律.