主要观点:作者写了关于学习robots.txt及其对博客数据权利影响的文章,原本想禁止所有爬虫,却导致领英帖子预览消失和连接减少,通过使用[LinkedIn Post Inspector]工具发现是robots.txt文件阻止了领英爬虫,进而了解到开放图谱协议(Open Graph Protocol),最后更新robots.txt允许LinkedInBot爬取资源并总结了经验教训。
关键信息:
- 更改
robots.txt后领英帖子预览消失,连接减少。 - [LinkedIn Post Inspector]工具可查看分享链接信息。
- 开放图谱协议所需的基本元数据标签,如
og:title、og:type、og:image、og:url。 - 更新后的
robots.txt配置允许LinkedInBot爬取资源。
重要细节: - 最初作者未考虑到阻止所有流量的影响。
- 实践表明需理解所做更改的领域,起初未将开放图谱协议与
robots.txt禁令联系起来。 - 经验教训是有时极端措施可能影响内容呈现,需充分测试。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。