使用 jsoup 将 html 转换为纯文本时如何保留换行符？

Question

新手上路，请多包涵

我有以下代码：

  public class NewClass {
     public String noTags(String str){
         return Jsoup.parse(str).text();
     }

     public static void main(String args[]) {
         String strings="<!DOCTYPE HTML PUBLIC \"-//W3C//DTD HTML 4.0 Transitional//EN \">" +
         "<HTML> <HEAD> <TITLE></TITLE> <style>body{ font-size: 12px;font-family: verdana, arial, helvetica, sans-serif;}</style> </HEAD> <BODY><p><b>hello world</b></p><p><br><b>yo</b> <a href=\"http://google.com\">googlez</a></p></BODY> </HTML> ";

         NewClass text = new NewClass();
         System.out.println((text.noTags(strings)));
}

我得到了结果：

 hello world yo googlez

但我想打破界限：

 hello world
yo googlez

我看过 jsoup 的 TextNode#getWholeText() 但我不知道如何使用它。

如果在我解析的标记中有 <br> ，我怎样才能在结果输出中换行？

原文由 Billy 发布，翻译遵循 CC BY-SA 4.0 许可协议

java jsoup

阅读 2k

1 个回答

得票最新

社区维基

1

发布于
2022-11-24

保留换行符的真正解决方案应该是这样的：

 public static String br2nl(String html) {
    if(html==null)
        return html;
    Document document = Jsoup.parse(html);
    document.outputSettings(new Document.OutputSettings().prettyPrint(false));//makes html() preserve linebreaks and spacing
    document.select("br").append("\\n");
    document.select("p").prepend("\\n\\n");
    String s = document.html().replaceAll("\\\\n", "\n");
    return Jsoup.clean(s, "", Whitelist.none(), new Document.OutputSettings().prettyPrint(false));
}

它满足以下要求：

如果原始 html 包含换行符 (\n)，它会被保留
如果原始 html 包含 br 或 p 标签，它们将被转换为换行符 (\n)。

原文由 user121196 发布，翻译遵循 CC BY-SA 3.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Stack Overflow 翻译

子站问答

访问

本篇内容翻译自 Stack Overflow，如果你觉得翻译结果值得改进，欢迎直接编辑修改，感谢你为社区贡献。

相似问题

找不到问题？创建新问题

使用 jsoup 将 html 转换为纯文本时如何保留换行符？

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

Stack Overflow 翻译

使用 jsoup 将 html 转换为纯文本时如何保留换行符？

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

一个类实现接口并且继承父类 使用Spring aop 失效?

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

Stack Overflow 翻译

一个类实现接口并且继承父类使用Spring aop 失效?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?