搜索引擎和爬虫的区别?

我的理解是爬虫是搜索引擎的一部分,负责信息的采集。 搜索引擎其他两个部分应该还包括语义分析和全文索引,不知道我这样的理解对不对?

还有请问下现有的开源搜索引擎包含了爬虫部分吗?

阅读 15.2k
2 个回答

从这本书里大概能给你一个较为宏观的答案: http://www.infoq.com/cn/minibooks/this-is-search-engine 关于开源的搜索引擎,Nutch应该是最富盛名的了,它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然 不利于广大Internet用户.开源的话其实会很多,分的也会相对细一点,这就看你注重什么方面了。

除了Nutch,其他的还有很多,可以自己去找资料看一下,比如:

  • Lucene
  • Slor
  • 全文检索引擎 Sphinx
  • Lucene索引查看工具 Luke
  • 实时分布式搜索引擎 Solandra
  • MySQL全文搜索引擎 mysqlcft
  • Java的索引-搜索引擎 IndexTank
  • Solr的PHP接口 Solarium
  • 搜索引擎 Compass (以上一部分靠记忆,一部分来自OSChina)
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进