爬虫的数据库该怎么设计?

毕设做一个小型搜索引擎,爬虫系统的数据库该怎样设计?
基于phantomjs实现抓取,入库后,剔除重复数据,利用开源的机器学习库做中文分词,然后形成索引。
最后再做一套搜索系统。

阅读 5.5k
4 个回答

数据库的设计跟你要爬的数据的结构和你的搜索引擎的设计有关。请再添加一些描述。

毕设的项目。怎么设计都行。

CREATE TABLE IF NOT EXISTS `Document` (
   `id`    INT AUTO_INCREMENT PRIMARY KEY,
   `url`   VARCHAR(1024) UNIQUE NOT NULL,
   `content` TEXT NOT NULL,
   `last_fetch_time` DATETIME
);

可以存成json,后面再慢慢处理