爬虫的数据库该怎么设计?

毕设做一个小型搜索引擎,爬虫系统的数据库该怎样设计?
基于phantomjs实现抓取,入库后,剔除重复数据,利用开源的机器学习库做中文分词,然后形成索引。
最后再做一套搜索系统。

阅读 5.5k
4 个回答

数据库的设计跟你要爬的数据的结构和你的搜索引擎的设计有关。请再添加一些描述。

毕设的项目。怎么设计都行。

CREATE TABLE IF NOT EXISTS `Document` (
   `id`    INT AUTO_INCREMENT PRIMARY KEY,
   `url`   VARCHAR(1024) UNIQUE NOT NULL,
   `content` TEXT NOT NULL,
   `last_fetch_time` DATETIME
);

可以存成json,后面再慢慢处理

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进