Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

发布于
2016-05-03

有一个9M多行的语料库，文件大小4G。现在需要匹配指定动词，符合句子条件的输出。
但是文件过大。每次读取一行。匹配下来要好久。请问有没有什么方法可以加快处理速度。

BufferedReader cpreader = new BufferedReader(new InputStreamReader(new FileInputStream(this.getCorpusPath())));
tring line = cpreader.readLine();
while(line != null)
            {
                ArrayList<String> verbList = new ArrayList();
                matcher_line = Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)").matcher(line);
                if(matcher_line.find())
                {
                    System.out.println(line);
                }
                
                
                
                line = cpreader.readLine();
            }

java 文本处理大数据正则表达式自然语言处理

阅读 7.7k

5 个回答

得票最新

araraloren

3.5k2320

发布于
2016-05-04

读文件的话应该是没有问题的，不过你可以尝试改为缓冲式读取，因为一行的大小可能是不确定的，会对效率造成影响吧。。
匹配的话如果是单个单词的话，可以改用更好的匹配方法，正则的话就不晓得了

min

1.5k15

发布于
2016-05-04

你的程序是按行处理，单线程处理肯定慢，用多线程处理，每个线程处理一行，处理完后再请求处理下一行，读取行的话最好用缓存读取多行，然后再分配给多个线程处理，这样可以最大利用CPU。

KaiLee

2021314

发布于
2016-05-05

更新于
2016-05-05

nio+多线程

lihuanghe121

2243

发布于
2016-05-05

Pattern.compile("(.*\\%\\&\\$cook\\%\\&\\$VB.*)")

这个在循环里边，每次都要编译正则，所以很慢，你把这个放到while外边看看

morriaty_the_murderer

36421218

发布于
2017-05-03

AC自动机，构造的树大小应该不到4G，普通的笔记本都应该够了

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题

Java 读取txt格式语料库并匹配指定字符串，如何可以快速完成？

你尚未登录，登录后可以

Java 开发 URL 匹配问题？

诺依框架自动生成代码前端Vue3提交数据，后端Java没收到问题出在哪里？

WSL里的Ubuntu系统开发Spring Boot报错Project build error: Non-readable POM ？

为什么 Qwen2.5-Omni-7B 官方教程都报错 Cannot import available module of Qwen2_5OmniModel in modelscope ？

请问是否有什么方案实现不同用户之间本地数据库的同步呢？

多个nas如何整合成一个整体?

MyBatis Plus 如何对敏感字段加解密（使用哪种加密方式）？