谷歌推出爬虫扩展代理 网站管理员可以屏蔽谷歌抓取内容用于训练AI – 蓝点网
在 OPENAI 公布 GPTBot 爬虫的谷歌管理谷歌相关信息后,今天谷歌宣布在 GoogleBot 基础上推出 Google-Extended 爬虫扩展代理,推出允许网站管理员使用 robots.txt 文件屏蔽谷歌抓取网站内容用来训练 AI 模型。爬虫屏蔽
谷歌没有推出单独的扩展 AI 爬虫,AI 爬虫仍然使用 GoogleBot,代理但网站可以声明是网站网否拒绝其抓取内容后训练 AI,如果要声明那就需要使用 Google-Extende代理令牌。员可用于

谷歌称,内容Google-Extended 是训练一种新控件,网络发布商可以使用它管理其网站是蓝点否有助于改进 Bard 和 Vertex AI 等生成式 AI 模型,在博客中谷歌多次提到网站可以帮助谷歌改进 AI,谷歌管理谷歌比如网站管理员可以选择是推出否帮助这些 AI 模型随着时间推移变得更准确和强大。
不过最终还是爬虫屏蔽网站管理员自己决定是否允许谷歌拿内容去训练 AI,如果不愿意的扩展话,可以在 robots.txt 中添加以下内容:
User-Agent: Google-ExtendedDisallow:/
需要提醒的代理是谷歌对于 robots.txt 的处理遵循了多种原则,而且 Google Bot 本身有一大堆用于不同用途的 bot,例如常规的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,这些 bot 是可以在 robots.txt 里混用的。
例如要允许谷歌搜索抓取网站内容、不允许谷歌抓取内容用于训练 AI,那么 robots.txt 可以这么写:
User-Agent: GooglebotAllow: /User-Agent: Google-ExtendedDisallow: /
- ·《真人快打1》免费内容新游戏机制兽性终结技公布
- ·《雪鹰收主》本日iOS正式上线 九大年夜做家齐助阵
- ·杨氏马门溪龙化石——中国首次发现有皮肤(印痕)化石的蜥脚类恐龙
- ·X射线同步加速器揭开南非金门高地国家公园巨椎龙恐龙蛋谜题
- ·卡普空《洛克人11》2018年上线 曾因主管离职而搁浅
- ·临夏盆地中新世晚期沙鸡化石——干旱临夏鸟揭示六百万年前青藏高原东北缘的干旱历史
- ·美国新墨西哥州白垩纪地层发现最后的迅猛龙Dineobellator notohesperus
- ·奥秘力量来临 《枪战豪杰》7月星座级兵器即将去袭
- ·《展开那三国3》千里押镖 纵横三国
- ·尽好阳沉埋出妖魔!《仁王2》公布新场景兴村十三樱
- ·《小丑》北好上映后P站搜刮量暴跌 峰值下达29万
- ·《足球经理2020》民圆建设需供出炉 游戏截图一览
- ·《F1 2018》新预告片公布 炫酷视觉效果 8月24发售
- ·6600万年前恐龙大灭绝后 巨大的剑齿凤尾鱼出现了
- ·寒武纪节肢动物繁殖的演化权衡 基于瓦普塔虾类化石标本的研究
- ·《侵进者:捉迷躲》民圆饱吹片 可骇小屋潜止供逝世
