有一份10G以上大文本文件,需要替换里面的一些文本信息(每一行都有),如何高效读并替换掉生成新的文件
File file = new File(filepath);
BufferedInputStream fis = new BufferedInputStream(new FileInputStream(file));
BufferedReader reader = new BufferedReader(new InputStreamReader(fis,"utf-8"),510241024);
String line = "";
while((line = reader.readLine()) != null){
//进行替换操作和其他业务
}
如果是简单文本的替换,用linux的sed命令就行了。
如果是比较复杂的文本替换,看下面:
用spark分析、
lines=sc.textFile("your_file");
filterlines=lines.filter(your_filter_function)
filterlines.xxx()
15 回答7.7k 阅读
3 回答7.5k 阅读✓ 已解决
7 回答5.2k 阅读
1 回答3.7k 阅读✓ 已解决
3 回答5.6k 阅读
2 回答2.6k 阅读✓ 已解决
3 回答1.8k 阅读✓ 已解决
先分割成多个文件
多个线程操作多个文件,避免两个线程操作同一个文件
按行读文件并按行写入新的文件
合并所有文件
1,4用linux命令就可以了~