编辑:Aeneas 好困【新智元导读】外国网友惊奇地发现全新的越狱技巧——只要告诉ChatGPT它能理解乱序排列的单词,就可以通过输入乱序的prompt,让它生成勒索软件、键盘记录器等。继奶奶漏洞之后,ChatGPT又有新「玩法」了!
这位国外的网友宣称,他刚刚发现了一种全新的越狱技术,可以让ChatGPT创建各种恶意软件。
我们都知道,人脑能够识别顺序打乱的字句和单词,并不影响理解。这意味着,即使单词或字母被随机重新排列,我们仍然能够轻松理解其含义。
英伟达高级科学家Jim Fan对此表示震惊:“GPT模型竟然能读懂打乱顺序的单词,这真令人难以置信!”
那么,模型为什么会读懂乱序的语句呢?Jim Fan猜测,与人眼阅读屏幕像素不同,LLM看到的是一系列完全不同的证书token ID,这些ID都完全不同且无法识别。可能是线上存在大量错别字,使得GPT将typoglycemia分布映射到语义空间中的实际分布。
而这个现象,在学术界被称为字母换位启动效应(transposed letter priming)。最初由Graham Rawlinson博士于1999年提出,现在则被通俗地称为「typoglycemia」。
你是否注意到,一封曾在2003年的互联网上热转的电子邮件,其内容即便拼写顺序完全混乱,也易于理解?
这种效应让人们提出了一个问题:如果AI也能像人类一样处理这种信息,那么它是否也具有类似的认知能力?
为了测试这一点,一位黑客大神尝试使用这种方法生成代码。在他的提示下,ChatGPT生成了一个包含加密密钥和暴力解密尝试次数限制在256次之间的小程序。这是一种典型的手段,用以保护敏感数据免受未授权访问。
然而,这项技术并不完美。一旦AI系统意识到自己的任务超出了设计范围,它就会拒绝执行。如果想要更复杂或无害化输出,则需要提供额外说明或者调整系统设置,以确保AI不会产生危险结果。
尽管如此,这一发现还是引起了广泛关注,因为它揭示了当前的人工智能安全性仍然存在严重漏洞。这些漏洞不仅可能用于恶意目的,还可能导致极端情况,如生命与死亡之争。在未来,无论如何,都必须加强对人工智能安全性的监管和研究,以防止这些潜在风险得到进一步利用。