如何实现一个小型的搜索引擎?

现在要做一个小型的搜索引擎,搜索学校图书馆的书评信息。以学校图书馆的体量,用elasticsearch这类型东西属于杀鸡用牛刀了,而且单表几十万的数据我觉得用原生的sql语句再加上一些索引限制来查就够了,然后加一个字典树。

但是这也是一个锻炼的机会,而且说不定以后的数据量也会扩大,所以我还是决定采用分布式的形式,用读写分离之类的方案(现在也还没完全确定)。

各位网友能不能推荐一些好的和搜索引擎相关的最佳实践类文章,或者好的小型用于学习的开源搜索引擎源代码来参考,甚至感觉可以的话还可以用一下相关的分词/个性推荐排序方面的知识,这样明年春招好歹有个不水的项目可以水一下了,现在这项目写完就是一个ssm堆出来的。。

补充

coursera上找的一门课程(课程大长了,大多数人肯定无法跟下来,有时间还不如去看下吴恩达的课呐。。),自制搜索引擎这本书好像都还挺不错的,欢迎各位网友的补充。。

阅读 6.1k
3 个回答

我之前使用开源全文搜索引擎Lucene做过毕设,大概就是先抓取数据,然后分词建立索引,最后对分词建立全文检索。

别的工具没用过,仅作为推荐,不妨可以一试~

我之前做过一个新闻的后台搜索,用的是solr(基于Lucene)+dubbo,效果还不错,solr支持直接对数据库进行索引,索引10W数据不到一分钟。分词插件是用IK分词。

crateDd 带SQL语言层的ES

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题