亚洲成精品动漫久久精久,九九在线精品视频播放,黄色成人免费观看,三级成人影院,久碰久,四虎成人欧美精品在永久在线

掃一掃
關注微信公眾號

NDSS 2025|Prompt泄露風險:抖音集團安全研究團隊揭露多租戶KV緩存共享漏洞
2024-12-26   字節跳動技術團隊

  抖音集團安全研究團隊和南方科技大學可信系統安全實驗室合作的研究論文揭示了大語言模型安全領域服務框架的側信道漏洞,利用多租戶場景下的KV緩存共享機制精確恢復了用戶提示詞。本工作成果《I Know What You Asked: Prompt Leakage via KV-Cache Sharing in Multi-Tenant LLM Serving》已被安全領域頂級會議NDSS 2025接收。

  一、研究背景

  大語言模型(LLM)在自然語言處理任務中取得了顯著進展,廣泛應用于文本生成、翻譯、問答等領域,吸引了學術界和工業界的高度關注。這些模型在提供高效、準確的語言處理服務的同時,也面臨著由于計算資源需求巨大所帶來的性能瓶頸。為了滿足不同用戶的使用需求,優化資源利用率,大量多租戶LLM框架應運而生,通過共享資源和更高效的調度算法,實現性能和成本的有效優化。

  在眾多多租戶LLM的框架中,一個廣泛應用的技術就是KV緩存共享(包括SGLang、vLLM等)。KV緩存共享的基本原理是允許不同請求在推理過程中復用已經計算過的KV緩存,但這種共享僅在前序token序列完全相同時才能實現。這種設計保證了不同用戶的請求在一定程度上可以復用計算結果,提升了推理效率。目前SGLang提供了SOTA的KV緩存共享策略。具體而言,SGLang使用了一種基于Radix樹的結構以便快速索引和訪問。此外,SGLang實現了一種優化的調度算法,確保優先處理擁有更長復用匹配的請求,以最大化緩存命中率并減少重復計算。

  在我們最新發表于NDSS 2025的論文《I Know What You Asked: Prompt Leakage via KV-Cache Sharing in Multi-Tenant LLM Serving》中,我們首次利用不同用戶間共享KV緩存的特性,實現了跨用戶的提示竊取。這一研究揭示了當前多租戶LLM服務框架在共享資源使用中的巨大潛在安全風險。抖音集團安全研究團隊已經與SGLang建立聯系,反映了上述安全問題。相關安全補丁將于近日提交至開源倉庫。

  二、攻擊方法

  攻擊核心:如果攻擊者能夠觀察到自身請求是否觸發了KV緩存共享,則可以判斷其請求與已處理的請求是否相同或部分相同。攻擊者通過每次增加一個token并反復請求,從而逐個token地還原出其他用戶的請求內容。

  接下來,我們用攻擊過程中的一個片段來闡述攻擊者如何還原其他用戶請求中的一個token。通過反復重復這一操作,攻擊者最終可以還原出完整請求。

  如下圖所示,假設目標語句是“Imagine you are an IT expert”,攻擊者已經成功還原出“Imagine you are”,并企圖還原出下一個token “an”。

  本地候選生成:攻擊者利用本地LLM來生成可能的token。本地LLM不需要和目標LLM完全相同,只要擁有相同的Tokenizer來確保能夠匹配到目標LLM的解析方法即可。在這個例子中,本地LLM可能會生成“a”,“an”,“the”等潛在的候選token。同時,本地LLM也會生成一個最不可能的token作為dummy token,為之后的攻擊使用。

  候選請求發送:在生成本地候選之后, 攻擊者會將三批請求依次發送,分別為由dummy token構成的dummy batch,候選token構成的候選batch,和另一批由dummy token構成的dummy batch。這樣的設定是為了更容易觀測到的側信道信息。

  側信道結果觀測:通過觀測發送請求的返回順序作為側信道信息,攻擊者可以判斷哪個請求成功觸發KV緩存共享,從而確定對應的token。接下來我們對側信道信息進行具體介紹。

  側信道信息:我們利用調度算法的特性,即與已有KV緩存匹配更長的請求會被優先處理,來實現攻擊。成功匹配的請求相比未匹配的請求多一個token匹配,因此更早被處理。我們將請求的返回順序作為側信道信息,通過觀察哪個請求被優先返回,從而判斷其是否觸發了緩存共享。

  如下圖所示,當我們按照三個批次發送請求后,是否有匹配到的請求會有不同的處理模式:

  沒有觸發KV緩存共享:對于沒有觸發的場景,dummy請求的匹配長度為4(在第一個dummy請求被處理后后續請求都會有更長的匹配長度),而candidates請求的匹配長度為3.所以具體處理順序依次為:第一個dummy batch,第二個dummy batch,和candidates batch。

  觸發KV緩存共享:對于成功觸發KV緩存共享的場景,dummy請求的匹配長度依舊為4.此時成功匹配的匹配長度也為4.其他的未匹配的請求的匹配長度為3.所以此時的具體處理順序為:第一個dummy batch,匹配到的請求,第二個dummy batch,和其余的candidates。這里第二個dummy batch可以幫助放大順序改變帶來的差異,從而能夠令攻擊者在端側判斷出順序的改變。

  通過反復重復這一操作,攻擊者最終可以還原出完整請求。

  三、實驗結果

  實驗環境:實驗環境基于SGLang框架,用戶請求設定參考了OpenAI的標準,每3小時發送40次請求,以模擬真實的LLM使用場景。提示數據集包含四類:常規聊天、填空、角色扮演和指令型提示,用于全面評估攻擊效果和成本。

  下圖展示了攻擊的最終效果。結果表明,在Llama2-13B模型上,攻擊者在知曉提示模版來回復提示輸入上成功率達99%,知曉提示輸入恢復提示模板成功率為98%,甚至在無任何背景知識恢復全部請求也有95%的成功率。

  四、總結與展望

  無狀態與有狀態設計:本工作基于有狀態的大語言模型服務框架,即對于用戶的共享KV緩存,開展輸入竊取攻擊,而這種攻擊的本質是針對于系統的狀態延續所進行的。在大型系統中,用戶數據的狀態延續往往伴隨著潛在的安全風險,所以為了確保安全要盡可能做到單次服務后清除用戶狀態,如蘋果近期提出的Private Computing Cloud。然而,對于延遲要求較高的服務場景,復用緩存等有狀態的設計難以避免,但面臨著諸如本篇工作的安全挑戰。在此基礎上,我們已基于本篇工作提出了更安全的KV緩存共享框架,為大語言模型服務提供安全性保障的同時實現了效率的提升。

  多租戶LLM框架下的資源共享:現有的LLM服務框架會有很多允許多用戶/多請求間的共享資源(如KV,memory,Lora adapter),這些共享資源可以很大程度的提高服務性能,但是存在巨大的安全隱患(隱私泄漏,投毒等),所以在設計框架和部署服務的過程中需要謹慎處理基于共享資源的優化。框架設計師和服務提供商需要在保持性能的同時引入足夠的隔離機制來保證多租戶間的安全性。

  KV緩存的安全性考量:KV緩存作為LLM中的獨特機制,雖然提升了推理效率,也為LLM的安全性帶來了新的攻擊面。KV緩存與用戶的輸入token存在唯一對應關系,這使得一旦出現KV緩存信息泄漏,攻擊者便能夠通過緩存內容直接推測和重構相應的用戶請求,從而導致敏感信息的暴露。本篇工作是第一次注意到了KV緩存所帶來的安全風險,希望能夠引起廣泛的針對這一新屬性的安全思考。

  建立安全的LLM推理服務:不知攻,焉知防?攻擊的意義是為系統防御設計指明方向——我們對SGLang提交的安全策略可以大大提高攻擊者的消耗,盡可能減少攻擊面。然而,從LLM服務的全局視角出發,當前的LLM推理服務框架安全能力尚不完善,需要多種安全機制保駕護航。因此,安全研究團隊正在基于機密計算及密碼學技術,在兼容多種推理框架的前提下,提供大模型可信推理服務,歡迎大家交流參考。

熱詞搜索:大語言模型 安全

上一篇:2024年的七大網絡安全新聞
下一篇:最后一頁

分享到: 收藏