AI 爬虫策略检查器
发布 llms.txt 之前,先查清 AI 爬虫访问权限
输入一个公开网站,检查 robots.txt、llms.txt、sitemap 和 AI 爬虫规则,然后复制一套诚实可用的 ChatGPT Search、Claude、Perplexity、Gemini 与训练爬虫策略包。
Signal 分数
--
运行一次审计后,这里会显示爬虫策略健康度。
robots.txt等待
llms.txt等待
sitemap.xml等待
首页等待
审计结果
扫描之后,哪些信号需要处理
爬虫矩阵
把搜索、训练和用户触发访问分开看
| Bot | 公司 | 用途 | 状态 | 规则 |
|---|---|---|---|---|
| 运行一次审计后,这里会显示爬虫规则。 | ||||
策略包
复制可以上线的文件片段
llms.txt 草稿
audit.json
FAQ
这些无聊但重要的边界,决定工具是否可信
llms.txt 能保证 AI 搜索排名吗?
不能。它更适合作为实验性的 AI 可读站点地图。真正表达允许或阻止抓取的规则,仍然应该放在 robots.txt 里。
为什么正常网站也会是中等分?
中等分通常不是“危险”,而是策略信号不完整:比如没有 robots.txt、没有 sitemap,或者没有把搜索类爬虫和训练类爬虫分开声明。
我应该阻止 GPTBot,同时允许 OAI-SearchBot 吗?
这是平衡模式的默认思路:保留 ChatGPT Search 的发现入口,同时把训练抓取单独作为选择。具体上线前,仍要结合你的法律、版权和内容策略复核。
CrawlerSignal 会追踪哪些数据?
Beta 版会记录轻量产品事件:页面访问、扫描开始、扫描成功或失败、复制策略片段、下载策略包、人机验证错误。它不创建账号,也不保存扫描历史数据库。
CrawlerSignal 能看到 Cloudflare managed robots.txt 或服务器日志吗?
不能。它只从外部读取公开 URL。CDN 规则、WAF 设置和真实 bot 访问日志需要平台权限,适合放到后续付费监控产品里。