lucene全文检索2G文档效率问题

发布于
2017-07-04

最近写了个数据报告的搜索引擎，发现全文检索2G大小pdf文档效率很低。
业务逻辑：

解析pdf文档，获取文本流。
lucene索引title/content等内容，生成索引文件。
lucene query方法，全文检索。

结果：执行速率不高，内存占用也不小。

我做的优化：

使用停用词stopwords词典过滤content，压缩content文本大小。
将content流式读取改为内存static存储。

请教优化方案？

lucene 搜索引擎分词全文检索

阅读 3.2k

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

相似问题

找不到问题？创建新问题