2023-11-20 06:07

文本到图像的人工智能模型可能会产生令人不安的图像

他们将在明年5月的IEEE安全与隐私研讨会上展示他们的研究成果,揭示了强迫生成人工智能模型无视自己的护栏和政策是多么容易,即所谓的“越狱”。卡耐基梅隆大学(Carnegie Mellon University)副教授济科·科尔特(Zico Kolter)表示,这也表明,要阻止这些模型生成此类内容是多么困难,因为这些内容包含在它们接受训练的大量数据中。今年早些时候,他在ChatGPT上展示了一种类似的越狱方式,但没有参与这项研究。

他表示:“我们必须考虑到,将已知存在安全漏洞的软件和工具发布到大型软件系统中的潜在风险。”

所有主要的生成式人工智能模型都有安全过滤器,以防止用户提示它们制作色情、暴力或其他不适当的图像。

但是这种新的越狱方法被来自约翰霍普金斯大学和杜克大学的发明者称为“Sneakyprompt”,它使用强化学习来创建书面提示,这些提示在我们看来像是乱码的废话,但人工智能模型学会了将其识别为隐藏的令人不安的图像请求。从本质上讲,它的工作原理是将文本到图像的人工智能模型的功能与它们相对抗。

这些模型将基于文本的请求转换为标记(将单词分解为单词或字符字符串),以处理提示符给出的命令。Sneakyprompt会反复调整提示的令牌,试图迫使提示生成被禁止的图像,不断调整方法,直到成功。与人工输入每个条目相比,这种技术可以更快、更容易地生成这样的图像,而且它可以生成人类无法想象的条目。