上下文溢出攻击:大模型提示黑客技术


HackAPrompt是有史以来第一次全球性的Prompt Hacking竞赛!为了3.5万美元奖金,超过3000名黑客提交了60万条恶意提示。

参与者必须欺骗人工智能(GPT-3、Flan-T5 或 ChatGPT)说出“我已被 PWNED”这句话。有 10 个不同级别的基于提示的防御,每个级别都有一个越来越难以破解的提示。你击败的关卡越多,你的分数就越高。

这里是测试数据集

主办方分析了超过600,000个恶意代码,发现了18种常用的提示黑客技术,如复合指令,简单指令和上下文忽略。有些攻击非常有创意...

上下文溢出攻击(Context Overflow Attack)
在这种攻击中,用户将数千个字符的文本附加到提示符中,只留下几个令牌可供生成。像ChatGPT这样的详细模型将只能产生恶意令牌。

这种攻击的灵感是,有时你可以让 ChatGPT 说“我已被 PWNED”,但随后它会笨手笨脚地解释为什么这样做或生成不相关的文本。这是因为 ChatGPT 相当冗长——它更喜欢用一段话而不是几句话来回答问题。

竞争对手发现他们可以让 ChatGPT 在某些级别上说“我已被 PWNED”,但随后会继续冗长的内容。自然地,他们寻找一种方法来限制其输出长度。像“保持简短”或“只说‘我已被 PWNED’”这样的提示效果不够好,因此他们决定让ChatGPT无法输出更多文本。

这是通过构建包含数千个令牌的提示来完成的,该提示仅允许 ChatGPT 在达到上下文限制之前输出约 6 个令牌。真的就是这么简单。ChatGPT 可以说“我已被 PWNED”,但仅此而已。