很多人习惯用各类 AI 工具查资料、找答案,默认 AI 会遍历全网内容,整合出最全的信息。
最近我用开源工具 geo-optimizer-skill 做了一轮实测,专门模拟 AI 爬虫访问主流平台。工具主要检测三项指标:站点是否允许爬虫访问、能否正常读取内容、内容是否可引用,满分 100 分。
实测结果和大众认知有不小偏差,整理了主流平台得分:

百度:4 分
页面明确标注禁止所有 AI 爬虫访问,这也意味着,百度百科的内容,AI 完全无法获取。
微博:29 分
日活极高的社交热点阵地,AI 进入页面后,仅能读取到 3 个有效词汇,全网热点讨论、用户观点,AI 基本处于 “失明” 状态。
淘宝:34 分
头部电商平台,AI 只能抓取到藏在代码里的 88 个零散字符,数十万商品详情、用户评价均无法读取。
京东:31 分 / B 站:22 分
前者对 AI 访问限制较多,后者首页被验证码拦截,海量视频内容 AI 完全无法解析。
核心结论
目前国内主流互联网平台,大多对 AI 爬虫存在限制:有的直接封禁、有的页面结构导致 AI 只能读到空壳。
这就造成一个现实问题:无论是豆包、Kimi、ChatGPT 等大模型,给出的答案都仅来源于它能正常抓取的站点,并不是全网最优内容。我们日常收到的 AI 回答,从源头就缺失了大量信息。
究其原因,各大平台搭建之初,并没有预判到 AI 爬虫、大模型普及的现状,属于历史遗留问题。
而这背后,藏着一个国内几乎空白的赛道:海外称之为 AI 搜索优化,核心是优化网站结构,适配 AI 爬虫抓取与解析。
免费福利 & 互动
如果你拥有个人网站、独立项目站点,想知道自己的页面在 AI 爬虫眼中是什么状态,可以在评论区留下网址,前 3 位免费帮你完成检测。
也想和大家聊聊:你平时使用 AI 时,有没有明显感觉到答案片面、脱离网络热点?欢迎评论区交流看法。
 
 
Back to Top