主要观点:作者写了关于学习robots.txt
及其对博客数据权利影响的文章,原本想禁止所有爬虫,却导致领英帖子预览消失和连接减少,通过使用[LinkedIn Post Inspector]工具发现是robots.txt
文件阻止了领英爬虫,进而了解到开放图谱协议(Open Graph Protocol),最后更新robots.txt
允许LinkedInBot
爬取资源并总结了经验教训。
关键信息:
- 更改
robots.txt
后领英帖子预览消失,连接减少。 - [LinkedIn Post Inspector]工具可查看分享链接信息。
- 开放图谱协议所需的基本元数据标签,如
og:title
、og:type
、og:image
、og:url
。 - 更新后的
robots.txt
配置允许LinkedInBot
爬取资源。
重要细节: - 最初作者未考虑到阻止所有流量的影响。
- 实践表明需理解所做更改的领域,起初未将开放图谱协议与
robots.txt
禁令联系起来。 - 经验教训是有时极端措施可能影响内容呈现,需充分测试。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。