如何从 Java 中的输入文本中删除标点符号?

新手上路,请多包涵

我正在尝试使用 Java 中用户的输入来获取一个句子,我需要将其设为小写并删除所有标点符号。这是我的代码:

     String[] words = instring.split("\\s+");
    for (int i = 0; i < words.length; i++) {
        words[i] = words[i].toLowerCase();
    }
    String[] wordsout = new String[50];
    Arrays.fill(wordsout,"");
    int e = 0;
    for (int i = 0; i < words.length; i++) {
        if (words[i] != "") {
            wordsout[e] = words[e];
            wordsout[e] = wordsout[e].replaceAll(" ", "");
            e++;
        }
    }
    return wordsout;

我似乎找不到任何方法来删除所有非字母字符。我尝试过使用正则表达式和迭代器,但没有成功。谢谢你的帮助。

原文由 TheDoctor 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 943
2 个回答

这首先删除所有非字母字符,折叠为小写,然后拆分输入,在一行中完成所有工作:

 String[] words = instring.replaceAll("[^a-zA-Z ]", "").toLowerCase().split("\\s+");

空格最初留在输入中,因此拆分仍然有效。

通过在拆分 之前 删除垃圾字符,您可以避免遍历元素。

原文由 Bohemian 发布,翻译遵循 CC BY-SA 3.0 许可协议

您可以使用以下 正则表达式构造

标点符号:!“#$%&‘()*+,-./:;<=>?@[]^_`{|}~之一

inputString.replaceAll("\\p{Punct}", "");

原文由 ravthiru 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题