
大语言模型的脆弱面,对抗攻击研究,你了解多少?
大语言模型的脆弱面——对抗攻击研究先说个鸡毛蒜皮的事实:大语言模型表面堪起来像个全嫩小超人,背后却藏着一颗极易碎的玻璃心。别堪它们在写诗、 写代码、写情书时光鲜亮丽,一旦遇到对抗性扰动马上就会像被针扎了一下似的,吐出奇怪的答案或着直接崩溃。
共收录篇相关文章

大语言模型的脆弱面——对抗攻击研究先说个鸡毛蒜皮的事实:大语言模型表面堪起来像个全嫩小超人,背后却藏着一颗极易碎的玻璃心。别堪它们在写诗、 写代码、写情书时光鲜亮丽,一旦遇到对抗性扰动马上就会像被针扎了一下似的,吐出奇怪的答案或着直接崩溃。