最近写了个数据报告的搜索引擎,发现全文检索2G大小pdf文档效率很低。
业务逻辑:
解析pdf文档,获取文本流。
lucene索引title/content等内容,生成索引文件。
lucene query方法,全文检索。
结果:执行速率不高,内存占用也不小。
我做的优化:
使用停用词stopwords词典过滤content,压缩content文本大小。
将content流式读取改为内存static存储。
请教优化方案?
最近写了个数据报告的搜索引擎,发现全文检索2G大小pdf文档效率很低。
业务逻辑:
解析pdf文档,获取文本流。
lucene索引title/content等内容,生成索引文件。
lucene query方法,全文检索。
结果:执行速率不高,内存占用也不小。
我做的优化:
使用停用词stopwords词典过滤content,压缩content文本大小。
将content流式读取改为内存static存储。
请教优化方案?
4 回答1k 阅读✓ 已解决
4 回答652 阅读✓ 已解决
1 回答2.5k 阅读✓ 已解决
1 回答1.1k 阅读✓ 已解决
2 回答657 阅读✓ 已解决
2 回答1.2k 阅读
2 回答1.6k 阅读