CS CrawlerSignal

上线前搜索入口排雷

上线前 30 秒检查:别把搜索入口挡在门外

输入网站 URL,先看 Google、Bing、AI 搜索这类入口有没有被误挡,再看不想要的训练爬虫有没有被限制清楚。

你现在更担心什么?
人机验证 正在检查防刷保护...

免费 beta。无需账号。只读公开文件,不会修改你的网站。

检查分数 -- 输入域名后,这里会告诉你:搜索入口是否通畅,爬虫规则是否清楚。
robots.txt等待
llms.txt等待
sitemap.xml等待
首页等待

怎么选

不知道怎么判断,就按这三步

01

先保住搜索入口

首页、robots.txt、sitemap.xml 会影响搜索引擎能不能找到和理解你的网站。

02

再分清爬虫用途

搜索类爬虫帮别人发现你;训练类爬虫更像拿公开内容做模型或数据用途。

03

最后只改第一步

结果页会把最该处理的事放在 01。先改它,再看要不要展开更多建议。

爬虫规则

这张表只回答一件事:谁被放行,谁被拦住

绿色“允许”

表示这个爬虫可以访问对应路径。搜索类爬虫被允许,通常有利于被发现。

红色“阻止”

表示这个爬虫被规则挡住。训练类爬虫被阻止,通常更偏内容保护。

最后一列规则

告诉你是哪条 robots.txt 规则造成了这个结果,例如 Allow: /Disallow: /

爬虫名称 公司 它对你有什么影响 当前状态 为什么是这个状态
完成检查后,这里会显示每个爬虫是被允许还是被阻止。

优化草稿

你可以复制,但先复核

robots.txt 草稿


          

llms.txt 草稿


          

检查报告 JSON


          

看不懂先看这里

这些词和你的网站有什么关系

搜索可见性

别人能不能通过搜索引擎或 AI 搜索发现你的公开页面。

robots.txt

你放在网站根目录的规则文件,用来告诉爬虫哪些地方可以看。

Allow / Disallow

Allow 是允许看,Disallow 是不让看。Disallow: / 通常表示不要看整个网站。

sitemap.xml

你的网站地图。它能把重要页面列出来,让搜索引擎更容易发现。

llms.txt

你给 AI 工具看的内容目录。它不是排名保证,也不能拦截爬虫。

搜索类爬虫

更像“帮别人发现你”的爬虫,例如 Googlebot、OAI-SearchBot、PerplexityBot。误挡它们可能减少曝光。

训练类爬虫

更像“拿公开内容做模型或数据用途”的爬虫,例如 GPTBot、Google-Extended、ClaudeBot、CCBot。

GPTBot / Google-Extended

这类爬虫更偏模型训练或数据使用。你要决定是否允许它们抓取。

OAI-SearchBot / PerplexityBot

这类爬虫更偏搜索发现。挡住它们,别人可能更难在 AI 搜索里看到你。

HTTP 200 / 404

200 表示页面能打开,404 表示没找到。首页或规则文件打不开时,要先查服务器或 CDN。

FAQ

先把最容易误解的事说清楚

检查完以后我能知道什么?

你会知道三件事:搜索引擎和 AI 搜索能不能看到你的网站;不想要的 AI 爬虫有没有被清楚限制;下一步应该先改 robots.txt、sitemap,还是 llms.txt。

我应该选哪个优化目标?

不确定就选“推荐:保留搜索,限制训练”。它适合大多数公开网站:先别误挡搜索入口,同时把训练类 AI 爬虫单独限制。只有当你更需要曝光时选“优先被看见”;当你更在意版权、付费内容或敏感内容时选“优先保护内容”。

结果出来后我第一步做什么?

先看“建议先做这几步”,从 01 开始处理。通常顺序是:确认首页能访问;确认 robots.txt 没误挡搜索;补 sitemap;再考虑 llms.txt。不要一上来直接复制全部草稿。

分数低就是网站有危险吗?

不是。分数低通常表示“规则不清楚”或“搜索可见性可能被误伤”。它是优化清单,不是安全报警。

我应该直接复制生成的 robots.txt 吗?

不要无脑复制。先看你的目标:如果想保留搜索可见性,就不要挡搜索类爬虫;如果不想让内容用于训练,可以限制训练类爬虫。上线前最好让懂网站或 SEO 的人复核一遍。

llms.txt 有必要做吗?

可以做,但别神化。它更像给 AI 工具看的内容目录,适合放文档、产品页、价格页、帮助中心等重要入口。它不能保证排名,也不能用来阻止爬虫。

为什么要区分搜索爬虫和训练爬虫?

因为目标不一样。搜索爬虫影响别人能不能在搜索或 AI 搜索里发现你;训练爬虫更接近“拿你的公开内容用于模型训练或数据集”。你可能想允许前者,同时限制后者。

我能用它看到 Cloudflare 或服务器日志吗?

不能。你只能看到公开 URL 的外部检查结果。Cloudflare 边缘规则、WAF、真实 bot 访问日志,需要你登录对应平台查看。