资讯文章
OpenAI推出网络爬虫GPTBot
在没有大张旗鼓或官方宣布的情况下,ChatGPT制造商OpenAI本周推出了一款新的网站爬行机器人,用于扫描网站内容以训练其大型语言模型(LLM)。
但在机器人的消息传出后,网站所有者和创建者迅速就如何阻止GPTBot抓取网站数据交换了建议。当OpenAI添加GPTBot支持页面时,它还引入了一种阻止该服务抓取您的网站的方法。对网站的robots.txt文件做一个小小的修改,就可以阻止内容与OpenAI共享。然而,由于网络被广泛抓取,目前尚不清楚是否简单地阻止GPTBot将完全阻止内容被包含在LLM训练数据中。
“我们定期从互联网上收集公共数据,这些数据可用于提高未来模型的功能,准确性和安全性,”OpenAI发言人在一封电子邮件中说。“在我们的网站上,我们提供了有关如何禁止我们的收集机器人访问网站的说明。网页经过过滤,以删除已知收集个人身份信息 (PII) 或包含违反我们政策的文本的来源。
在GPTBot发布公开后不久,OpenAI宣布了395,000美元的赠款,并与纽约大学的Arthur L. Carter新闻研究所建立了合作伙伴关系。
虽然对谁可以使用开放网络上的内容有更多的控制是很方便的,但目前还不清楚简单地阻止GPTBot有多有效。LLM和其他生成AI平台已经使用大量公共数据来训练他们目前部署的数据集。
声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
红包
点赞
收藏
评论
打赏
- 分享
- 举报
评论
0个
手气红包
暂无数据
相关专栏
-
浏览量:851次2023-08-29 13:34:00
-
浏览量:3946次2022-04-27 19:32:29
-
浏览量:740次2023-12-15 14:10:52
-
浏览量:2056次2021-12-18 14:08:09
-
2023-03-06 11:11:30
-
2022-12-26 10:26:11
-
2023-01-12 14:55:31
-
浏览量:2000次2023-02-22 17:04:11
-
浏览量:2548次2020-10-22 11:24:10
-
浏览量:1046次2023-09-22 10:38:06
-
浏览量:1529次2018-07-02 16:38:56
-
浏览量:980次2023-03-24 11:22:33
-
浏览量:2095次2018-10-17 20:17:13
-
浏览量:2013次2018-10-16 15:11:27
-
浏览量:1892次2018-10-19 18:10:59
-
浏览量:3204次2018-10-18 18:19:54
-
浏览量:1011次2023-02-13 10:57:00
-
2020-10-22 11:33:54
-
浏览量:2118次2018-09-06 10:49:36
置顶时间设置
结束时间
删除原因
-
广告/SPAM
-
恶意灌水
-
违规内容
-
文不对题
-
重复发帖
打赏作者
艾
您的支持将鼓励我继续创作!
打赏金额:
¥1
¥5
¥10
¥50
¥100
支付方式:
微信支付
打赏成功!
感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~
举报反馈
举报类型
- 内容涉黄/赌/毒
- 内容侵权/抄袭
- 政治相关
- 涉嫌广告
- 侮辱谩骂
- 其他
详细说明
审核成功
发布时间设置
发布时间:
请选择发布时间设置
是否关联周任务-专栏模块
审核失败
失败原因
请选择失败原因
备注
请输入备注