从这本书里大概能给你一个较为宏观的答案: http://www.infoq.com/cn/minibooks/this-is-search-engine 关于开源的搜索引擎,Nutch应该是最富盛名的了,它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.开源的话其实会很多,分的也会相对细一点,这就看你注重什么方面了。 除了Nutch,其他的还有很多,可以自己去找资料看一下,比如: Lucene Slor 全文检索引擎 Sphinx Lucene索引查看工具 Luke 实时分布式搜索引擎 Solandra MySQL全文搜索引擎 mysqlcft Java的索引-搜索引擎 IndexTank Solr的PHP接口 Solarium 搜索引擎 Compass (以上一部分靠记忆,一部分来自OSChina)
从这本书里大概能给你一个较为宏观的答案: http://www.infoq.com/cn/minibooks/this-is-search-engine 关于开源的搜索引擎,Nutch应该是最富盛名的了,它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.开源的话其实会很多,分的也会相对细一点,这就看你注重什么方面了。
除了Nutch,其他的还有很多,可以自己去找资料看一下,比如: