娱乐

谷歌推出爬虫扩展代理 网站管理员可以屏蔽谷歌抓取内容用于训练AI – 蓝点网

字号+ 作者:首尾相应网 来源:娱乐 2026-03-24 22:06:47 我要评论(0)

在 OPENAI 公布 GPTBot 爬虫的相关信息后,今天谷歌宣布在 GoogleBot 基础上推出 Google-Extended 爬虫扩展代理,允许网站管理员使用 robots.txt 文件屏蔽

在 OPENAI 公布 GPTBot 爬虫的谷歌管理谷歌相关信息后,今天谷歌宣布在 GoogleBot 基础上推出 Google-Extended 爬虫扩展代理,推出允许网站管理员使用 robots.txt 文件屏蔽谷歌抓取网站内容用来训练 AI 模型。爬虫屏蔽

谷歌没有推出单独的扩展 AI 爬虫,AI 爬虫仍然使用 GoogleBot,代理但网站可以声明是网站网否拒绝其抓取内容后训练 AI,如果要声明那就需要使用 Google-Extende代理令牌。员可用于

谷歌推出爬虫扩展代理 网站管理员可以屏蔽谷歌抓取内容用于训练AI

谷歌称,内容Google-Extended 是训练一种新控件,网络发布商可以使用它管理其网站是蓝点否有助于改进 Bard 和 Vertex AI 等生成式 AI 模型,在博客中谷歌多次提到网站可以帮助谷歌改进 AI,谷歌管理谷歌比如网站管理员可以选择是推出否帮助这些 AI 模型随着时间推移变得更准确和强大。

不过最终还是爬虫屏蔽网站管理员自己决定是否允许谷歌拿内容去训练 AI,如果不愿意的扩展话,可以在 robots.txt 中添加以下内容:

User-Agent: Google-ExtendedDisallow:/

需要提醒的代理是谷歌对于 robots.txt 的处理遵循了多种原则,而且 Google Bot 本身有一大堆用于不同用途的 bot,例如常规的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,这些 bot 是可以在 robots.txt 里混用的。

例如要允许谷歌搜索抓取网站内容、不允许谷歌抓取内容用于训练 AI,那么 robots.txt 可以这么写:

User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • 新作《满足》首支预告片放出 《模拟山羊》公司开发

    新作《满足》首支预告片放出 《模拟山羊》公司开发

    2026-03-24 21:09

  • 云顶之弈s6羁绊全览图最新爆料

    云顶之弈s6羁绊全览图最新爆料

    2026-03-24 20:59

  • 崩坏3严霜意志第二关夜樱闪避主题怎么过

    崩坏3严霜意志第二关夜樱闪避主题怎么过

    2026-03-24 20:34

  • 喵糖总动员怎么占格子

    喵糖总动员怎么占格子

    2026-03-24 19:36

网友点评