自己用django 开发了个简单的网页,
想知道每天被搜索引擎抓取记录,特请教django 如何查看被搜索引擎爬取的记录和次数呢
一般是根据请求header的UserAgent来判断是不是搜索引擎爬虫。
比如:"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/s...)" 这个是百度的。
"Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)" 这个是必应的。
你搜一下:搜索引擎爬虫UserAgent,有一大堆别人整理的。
1 回答1.1k 阅读✓ 已解决
1 回答766 阅读✓ 已解决
1 回答667 阅读✓ 已解决
1 回答638 阅读
631 阅读
这种应该要自己去实现中间件,分析每个request的特点,如果是被搜索引擎请求,这个request应该会和一般用户的request有所区别,记录几个关键的搜索引擎就可以了吧 。