读取大于内存的大文件怎么读？

发布于
2017-04-11

参考：
    有一个1G大小的一个文件，内存限制大小是10M，有序返回频数最高的50个词，该怎么做？

网上有很多该问题的解决方案，都是用分而治之的思想，提到了遍历整个文件。

那么我的问题是：
如果单纯地逐行读取大文件，算是把1G文件全都加载进内存吗？
或者说是读取大于内存的文件应该怎么读？

java

阅读 10.9k

6 个回答

得票最新

枕边书

4412916

发布于
2017-04-11

✓ 已被采纳

在这里内存就像一条管道，逐行读是把1G文件在内存里过一遍而已，10M表示管道的粗细。
所以，逐行读是把1G文件加载进去过内存。

auntyellow

3.1k31430

发布于
2017-04-11

try (BufferedReader in = new BufferedReader(new FileReader(file))) {
    String line;
    while ((line = in.readLine()) != null) {
        // parse line
    }
}

file再大，只要每一行的长度有限，整个文件读完会需要不少的时间，但不会占用太大的内存。

Embers

125920

发布于
2017-04-11

分块读，每读一个块一个结果集，最后对结果集聚合
处理文本的话，知道行数会更好

Nine

1.1k615

发布于
2017-04-11

更新于
2017-04-11

linux上面有个指令叫做split可以并发快速把大文本分割成小的文件,然后处理就方便了呀,这种算法叫做外排序

StormerZ

2.3k26125183

发布于
2017-04-11

内存就好比草稿纸，写满一篇就翻篇。用过、没用的数据就扔掉了。

简单举例，创建一个变量 buff,设定好它的大小，打开文件流往里填，填满以后查你要的内容，查到就统计到另外一个变量里计数。然后清空buff,继续之前读取的位置再次装载内容…… 直到读取完毕，统计也就完成了。

member

6.2k11026

发布于
2017-04-11

针对不同的系统，都会提供一个API来操作大于内存的文件，也就是将文件当做内存来处理：

内存映射

mmap
CreateFileMapping

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

读取大于内存的大文件怎么读？

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?

读取大于内存的大文件怎么读？

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？

spring boot 报错怎么解决：Invalid bean definition with name 'appMapper' defined in file ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

idea 中 有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性 有什么好的办法吗?

idea 中有很多个 yml配置文件 , 如果想查找 a.b.c.d.e属性有什么好的办法吗?