安全对齐

安全对齐

Tag

当前位置:首页 > 安全对齐 >
  • 大语言模型的脆弱面,对抗攻击研究,你了解多少?

    大语言模型的脆弱面,对抗攻击研究,你了解多少?

    大语言模型的脆弱面——对抗攻击研究 先说个鸡毛蒜皮 的事实:大语言模型 表面堪起来像个全嫩小超人,背后却藏着一颗极易碎的玻璃心 。别堪它们在写诗、 写代码、写情书时光鲜亮丽,一旦遇到对抗性扰动 马上就会像被针扎了一下似的,吐出奇怪的答案或着直接崩溃。 1. 那些让人抓狂的经典攻击手法 先抛几个名词砸你脑袋:提示注入 越狱攻击后门植入还有那种莫名其妙的“间接提示注入”。这些玩意儿不需要大刀阔斧

    查看更多 2026-02-24

提交需求或反馈

Demand feedback