如何从文件内容创建 Java 字符串?

新手上路,请多包涵

一段时间以来,我一直在使用下面的成语。它似乎是最广泛的,至少在我访问过的网站上。

有没有更好/不同的方法将文件读入Java中的字符串?

 private String readFile(String file) throws IOException {
    BufferedReader reader = new BufferedReader(new FileReader (file));
    String         line = null;
    StringBuilder  stringBuilder = new StringBuilder();
    String         ls = System.getProperty("line.separator");

    try {
        while((line = reader.readLine()) != null) {
            stringBuilder.append(line);
            stringBuilder.append(ls);
        }

        return stringBuilder.toString();
    } finally {
        reader.close();
    }
}

原文由 OscarRyz 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 909
2 个回答

从文件中读取所有文本

Java 11 添加了 readString() 方法将小文件读取为 String ,保留行终止符:

 String content = Files.readString(path, StandardCharsets.US_ASCII);

对于 Java 7 和 11 之间的版本,这是一个紧凑、健壮的习惯用法,包含在一个实用方法中:

 static String readFile(String path, Charset encoding)
  throws IOException
{
  byte[] encoded = Files.readAllBytes(Paths.get(path));
  return new String(encoded, encoding);
}

从文件中读取文本行

Java 7 添加了 一种将文件作为文本行读取的便捷方法, 表示为 List<String> 。这种方法是“有损的”,因为行分隔符从每行的末尾被剥离。

 List<String> lines = Files.readAllLines(Paths.get(path), encoding);

Java 8 添加了 Files.lines() 方法来生成 Stream<String> 。同样,这种方法是有损的,因为行分隔符被剥离。如果在读取文件时遇到 IOException ,则将其包装在 UncheckedIOException 中,因为 Stream 不接受引发检查异常的 lambda。

 try (Stream<String> lines = Files.lines(path, encoding)) {
  lines.forEach(System.out::println);
}

这个 Stream 确实需要一个 close() 调用;这在 API 上的记录很差,我怀疑很多人甚至没有注意到 Stream 有一个 close() 方法。一定要使用如图所示的 ARM 块。

如果您正在使用文件以外的源,则可以改用 --- 中的 BufferedReader lines() 方法。

内存利用率

第一种保留换行符的方法可能会暂时需要几倍于文件大小的内存,因为在短时间内原始文件内容(字节数组)和解码的字符(每个字符都是 16 位,即使已编码)作为文件中的 8 位)一次驻留在内存中。应用到您知道相对于可用内存较小的文件是最安全的。

第二种方法,读取行,通常更节省内存,因为用于解码的输入字节缓冲区不需要包含整个文件。但是,它仍然不适合相对于可用内存非常大的文件。

为了读取大文件,您需要对程序进行不同的设计,即从流中读取一大块文本,对其进行处理,然后继续下一个,重用相同的固定大小的内存块。在这里,“大”取决于计算机规格。如今,这个阈值可能是数 GB 的 RAM。第三种方法,使用 Stream<String> 是一种方法,如果您输入的“记录”恰好是单独的行。 (使用 readLine() BufferedReader 与此方法等效。)

字符编码

原始帖子中的示例中缺少的一件事是字符编码。在某些特殊情况下,平台默认值是您想要的,但它们很少见,您应该能够证明您的选择是合理的。

StandardCharsets 类为所有 Java 运行时所需的编码定义了一些常量:

 String content = readFile("test.txt", StandardCharsets.UTF_8);

平台默认值可从 Charset 本身获得:

 String content = readFile("test.txt", Charset.defaultCharset());


注意:这个答案在很大程度上取代了我的 Java 6 版本。 Java 7 的实用程序安全地简化了代码,并且使用映射字节缓冲区的旧答案阻止了读取的文件被删除,直到映射缓冲区被垃圾收集。您可以通过此答案的“已编辑”链接查看旧版本。

原文由 erickson 发布,翻译遵循 CC BY-SA 4.0 许可协议

如果您愿意使用外部库,请查看 Apache Commons IO (200KB JAR)。它包含一个 org.apache.commons.io.FileUtils.readFileToString() 方法,允许您使用一行代码将整个 File 读入 String

例子:

 import java.io.*;
import java.nio.charset.*;
import org.apache.commons.io.*;

public String readFile() throws IOException {
    File file = new File("data.txt");
    return FileUtils.readFileToString(file, StandardCharsets.UTF_8);
}

原文由 DaWilli 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题