上下文溢出攻击：大模型提示黑客技术

HackAPrompt是有史以来第一次全球性的Prompt Hacking竞赛！为了3.5万美元奖金，超过3000名黑客提交了60万条恶意提示。

参与者必须欺骗人工智能（GPT-3、Flan-T5 或 ChatGPT）说出“我已被 PWNED”这句话。有 10 个不同级别的基于提示的防御，每个级别都有一个越来越难以破解的提示。你击败的关卡越多，你的分数就越高。

主办方分析了超过600，000个恶意代码，发现了18种常用的提示黑客技术，如复合指令，简单指令和上下文忽略。有些攻击非常有创意...

上下文溢出攻击（Context Overflow Attack）
在这种攻击中，用户将数千个字符的文本附加到提示符中，只留下几个令牌可供生成。像ChatGPT这样的详细模型将只能产生恶意令牌。

这种攻击的灵感是，有时你可以让 ChatGPT 说“我已被 PWNED”，但随后它会笨手笨脚地解释为什么这样做或生成不相关的文本。这是因为 ChatGPT 相当冗长——它更喜欢用一段话而不是几句话来回答问题。

竞争对手发现他们可以让 ChatGPT 在某些级别上说“我已被 PWNED”，但随后会继续冗长的内容。自然地，他们寻找一种方法来限制其输出长度。像“保持简短”或“只说‘我已被 PWNED’”这样的提示效果不够好，因此他们决定让ChatGPT无法输出更多文本。

这是通过构建包含数千个令牌的提示来完成的，该提示仅允许 ChatGPT 在达到上下文限制之前输出约 6 个令牌。真的就是这么简单。ChatGPT 可以说“我已被 PWNED”，但仅此而已。