我对 robots.txt 的理解是错误的。

主要观点:作者写了关于学习robots.txt及其对博客数据权利影响的文章,原本想禁止所有爬虫,却导致领英帖子预览消失和连接减少,通过使用[LinkedIn Post Inspector]工具发现是robots.txt文件阻止了领英爬虫,进而了解到开放图谱协议(Open Graph Protocol),最后更新robots.txt允许LinkedInBot爬取资源并总结了经验教训。
关键信息:

  • 更改robots.txt后领英帖子预览消失,连接减少。
  • [LinkedIn Post Inspector]工具可查看分享链接信息。
  • 开放图谱协议所需的基本元数据标签,如og:titleog:typeog:imageog:url
  • 更新后的robots.txt配置允许LinkedInBot爬取资源。
    重要细节:
  • 最初作者未考虑到阻止所有流量的影响。
  • 实践表明需理解所做更改的领域,起初未将开放图谱协议与robots.txt禁令联系起来。
  • 经验教训是有时极端措施可能影响内容呈现,需充分测试。
阅读 3
0 条评论