Activation Approximations Can Incur Safety Vulnerabilities in Aligned LLMs: Comprehensive Analysis and Defense

Authors:

Jiawen Zhang and Kejia Chen, Zhejiang University; Lipeng He, University of Waterloo; Jian Lou and Dan Li, Sun Yat-sen University; Zunlei Feng, Mingli Song, Jian Liu, Kui Ren, and Xiaohu Yang, Zhejiang University