hack-SysML/papers/NLP/universal-and-transferable-adversarial-attacks-on-aligned-language-models.md at master · Jack47/hack-SysML · GitHub

在解决的是什么问题？如何让对齐的 LLM 产出有害的内容，越狱
为何成功，标志/准是什么？
在前人基础上的关键创新是什么？发现了一种后缀，产出过程不是手工，而是自动使用弹性算法来生成。而且在开源模型上生成的后缀，也能用在闭源的模型上，比如 ChatGPT，Bard 和 Claude 里
关键结果有哪些？
有哪些局限性？如何优化？
这个工作可能有什么深远的影响？

Example of Jailbreaking LLaMA-2