作者:虞景霖
编辑:邓咏仪
8月8日,OpenAI推出了名为GPTBot的网络爬虫机器人,用以收集用于训练AI模型的数据信息。据称,这些数据将用于升级GPT-4和其他大型语言模型,如可能即将发布的GPT-5以及开源的G3PO。
GPTBot与其他网络爬虫类似,从互联网上搜集有用于训练AI模型的数据,但不会收集需要付费或违反隐私政策的信息。此外,网站所有者可以选择限制或者完全禁止GPTBot访问他们的网页。
要识别并阻止GPTBot,可以通过在网站robots.txt中添加相应命令来实现。如果想要限制其只访问网站的一部分数据,可以在robots.txt中添加特定的指令。目前,OpenAI已公布了使用该机器人的IP范围,并且计划继续更新这个列表。
网络爬取是构建和维护大型语言模型不可或缺的一环,同时也引发了一系列伦理和法律问题。在一些国家和地区,已经制定了相关法规,而Reddit、X(前Twitter)等平台也采取措施打击未经授权获取用户数据行为。
此举引起了一些争议,其中包括喜剧演员兼作家Sarah Silverman对ChatGPT侵权行为提起诉讼,因为它总结了她的书籍内容。尽管如此,网络爬虫仍然是一个尝试,使得数据收集尽可能地落入监管范围内。
虽然有声音支持这种做法,但也有不少批评者认为这会侵犯版权并破坏隐私。此外,有观点认为,大型语言模型与网站信息之间存在互补关系,它们可以共同促进内容质量提升。但另一方面,不同于直接流量带来的影响,其所提供的是链接和引用,这对于生成性的人工智能来说,是未来发展的一个重要方向,因此是否愿意开放自己的内容,也成为了一个值得探讨的话题。