科技部官方网站首页OpenAI推出爬虫机器人用户可选择禁止被爬

作者：虞景霖

编辑：邓咏仪

8月8日，OpenAI推出了名为GPTBot的网络爬虫机器人，用以收集用于训练AI模型的数据信息。据称，这些数据将用于升级GPT-4和其他大型语言模型，如可能即将发布的GPT-5以及开源的G3PO。

GPTBot与其他网络爬虫类似，从互联网上搜集有用于训练AI模型的数据，但不会收集需要付费或违反隐私政策的信息。此外，网站所有者可以选择限制或者完全禁止GPTBot访问他们的网页。

要识别并阻止GPTBot，可以通过在网站robots.txt中添加相应命令来实现。如果想要限制其只访问网站的一部分数据，可以在robots.txt中添加特定的指令。目前，OpenAI已公布了使用该机器人的IP范围，并且计划继续更新这个列表。

网络爬取是构建和维护大型语言模型不可或缺的一环，同时也引发了一系列伦理和法律问题。在一些国家和地区，已经制定了相关法规，而Reddit、X（前Twitter）等平台也采取措施打击未经授权获取用户数据行为。

此举引起了一些争议，其中包括喜剧演员兼作家Sarah Silverman对ChatGPT侵权行为提起诉讼，因为它总结了她的书籍内容。尽管如此，网络爬虫仍然是一个尝试，使得数据收集尽可能地落入监管范围内。

虽然有声音支持这种做法，但也有不少批评者认为这会侵犯版权并破坏隐私。此外，有观点认为，大型语言模型与网站信息之间存在互补关系，它们可以共同促进内容质量提升。但另一方面，不同于直接流量带来的影响，其所提供的是链接和引用，这对于生成性的人工智能来说，是未来发展的一个重要方向，因此是否愿意开放自己的内容，也成为了一个值得探讨的话题。

你可能也会喜欢...

南宁职业技术学院-绿城智慧南宁职院的创新教育探索

芯片界联合声援26家企业集体力挺华为

2022年芯片龙头股排名前十的奇迹谁将领航科技未来