robots.txt如何只允许GPTBot抓取首页

最近子凡我发现我们的泪雪网被 GPTBot 大量的抓取，GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫，所有本着不想自己网站做别人的嫁衣，所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站，庆幸的是 OpenAI 遵守 robots 规则。

首先需要知道的是 GPTBot 爬虫的用户代理是：Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

当然也为了让 OpenAI 认识和了解我们网站，所有子凡觉得对其开放网站首页和关于我们页面是有必要的，所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面，可以在 robots.txt 文件中使用以下规则：

User-agent: GPTBot
Disallow: /    # 禁止搜索引擎访问整个网站
Allow: /$      # 允许搜索引擎访问首页
Allow: /about  # 允许搜索引擎访问关于页面

这些规则告诉 GPTBot 爬虫代理（User-agent: GPTBot）禁止访问整个网站（Disallow: /），但允许访问网站的根目录或首页（Allow: /$）。这确保了搜索引擎只能抓取你的首页而不是整个网站。

需要注意的是，robots.txt 文件只是一个建议，而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令，但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外，robots.txt 只能用于指导搜索引擎和合法的网络爬虫，对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护，建议使用其他安全措施，如身份验证和访问控制。

除非注明，否则均为泪雪博客原创文章，禁止任何形式转载本文链接：https://zhangzifan.com/gptbot-robots-txt-allow-homepage.html

robots.txt如何只允许GPTBot抓取首页

泪雪

引用和评论

CentOS，是时候说再见了

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务

Vite4-MobileGPT：基于vue3+vant4移动端仿ChatGPT聊天模板

PC版-vue3.5对接deepseek构建网页版AI流式输出聊天界面

OpenAI API Key 获取并用GPT-4o 图像生成：使用 Node JS代码调用示例

快捷键打开某个窗口(如网页chatGPT)

manus 的替代品有哪些？使用LLM大模型技术做手机/网页/浏览器自动化操作技术汇总