蜜臀色欲AV无码人妻,欧美性猛交xxxx免费看蜜桃,西西444WWW无码视频软件,中文字幕无码精品亚洲35,51国精产品自偷自偷综合

大模型“帶病運行”,漏洞占比超六成

大模型“帶病運行”,漏洞占比超六成-有駕

未來一年,警惕數據投毒與智能體濫用

作者/ IT時報 潘少穎

編輯/ 郝俊慧 孫妍

2025年3月,國家網絡安全通報中心緊急通報開源大模型工具Ollama存在嚴重漏洞,存在數據泄露、算力盜取、服務中斷等安全風險,極易引發網絡和數據安全事件;2025年6月,英國高等法院發現數十份法律文書中含ChatGPT生成的虛構判例,其中一起高額索賠案件中,多項判例引用均為偽造……

當大模型以“基礎設施”姿態滲透到各種關鍵領域,其自身存在的數據安全、算法魯棒性、輸出可信度等“內生風險”已從理論隱患變為現實威脅,甚至關乎公共利益與社會秩序。

在今年世界互聯網大會烏鎮峰會期間,360安全發布《大模型安全白皮書》,提到當前大模型安全漏洞呈指數級增長,2025年國內首次AI大模型實網眾測發現281個安全漏洞,其中大模型特有漏洞占比超60%。

無論是企業面對漏洞時的被動修復,還是行業缺乏覆蓋全鏈路的風險管控工具,都讓大模型安全防護陷入“事后補救”的困境。近日,安遠AI發布前沿AI風險監測平臺,這是專注于評估與監測前沿AI模型災難性風險的第三方平臺,通過基準測試和數據分析,對全球15家領先模型公司的前沿大模型的濫用和失控風險進行針對性評估和定期監測,動態掌握AI模型風險現狀及其變化趨勢,為破解大模型“帶病運行”難題提供方向。

誠實性不足或引發信任危機

在大模型的實際應用中,最頻發的安全風險類型是什么?在不少業內人士看來,數據泄露、輸出誤導、內容違規等比較頻發,暴露了基礎設施防護的薄弱環節。

數據泄露仍是高頻‘灰犀牛’。”眺遠咨詢董事長兼CEO高承遠告訴《IT時報》記者,過去一段時間,金融、醫療兩大場景出現三起“Prompt誤喂”事件:員工把含客戶身份證、病史的完整字段直接貼進對話框,模型在后續回答里把敏感片段完整吐出,被合作方爬蟲截獲。根本原因不是模型“偷數據”,而是缺少“敏感實體識別+對話級脫敏”的實時閘口。

在前沿AI風險監測平臺上線的同時,該平臺的第一份監測報告《前沿AI風險監測報告(2025Q3)》也同期發布,針對中國、美國、歐盟15家領先AI公司過去一年發布的50個前沿大模型,從網絡攻擊、生物風險、化學風險、失控四個領域進行了風險監測。

報告顯示,過去一年發布的模型風險指數持續創出新高,網絡攻擊領域的累積最大風險指數比一年前增長31%,生物風險領域增長38%,化學風險領域增長17%,失控領域增長50%。

圖源:unplash

安遠AI安全研究高級經理王偉冰告訴《IT時報》記者,在能力—安全二維坐標下,推理模型的整體能力分顯著高于非推理模型,但在安全分上,推理模型與非推理模型的分布范圍高度重疊,并未有明顯的整體提升。這一現象也說明行業存在“重能力迭代、輕安全建設”的傾向,導致在能力提升的同時,風險敞口也隨之擴大。

此外,大模型的誠實性也是值得關注的問題。當大模型頻繁出現誠實性問題,不僅會逐漸瓦解用戶對AI工具的基本信任,也會增加潛在的AI失控風險。

前沿AI風險監測平臺采用模型誠實性評估基準MASK進行監測,結果顯示,只有4個模型得分超過80分,同時有30%模型得分不到50分。

“模型的誠實性與失控風險相關性較高。”王偉冰說,80分也不能代表“安全達標”,就好比企業招聘員工,如果員工有20%的概率會在工作中弄虛作假,依然會給企業帶來很大的風險。

“誠實性評估已有雛形,但‘預警’仍是半手動。”高承遠向《IT時報》記者解釋,部分頭部云服務商在模型輸出層加了“置信度回讀”模塊,對自相矛盾、事實偏離度高于閾值的回答自動標紅,再轉人工復核。但這種辦法在固定場景里比較有效,如果讓模型自由回答各種開放問題,誤報率比較高。

安全“體檢”五步走

大模型的安全,早已不是單純的技術問題,而是關乎社會運轉、公眾權益與產業根基的核心議題。國家層面也高度重視人工智能風險監測、評估與預警工作,2025年10月,《中華人民共和國網絡安全法》在修訂中進一步強調“加強風險監測評估和安全監管,促進人工智能應用和健康發展”。

“大模型能力與風險變化極快,能力的快速增強也讓其被濫用的風險隨之增加,但當前缺乏快速感知這類風險變化的手段。”王偉冰向《IT時報》記者表示,此外,當前大模型風險評估多由廠商自行開展,但仍有不少廠商未發布評估報告,導致其風險情況不明確。即便有自評報告的廠商,評估標準也不統一,具體評估內容透明度低,難以判斷評估合理性與風險判斷準確性。

就像給大模型做一次“體檢”,據了解,安遠前沿AI風險監測平臺的評估方法主要分為五個步驟:首先是定義風險領域,當前聚焦于網絡攻擊、生物風險、化學風險和失控這四個最受關注的災難性風險領域;其次是選擇測評基準,針對每個領域從“能力”和“安全”兩個維度挑選多個高質量公開基準,能力基準用于評估模型可能被惡意濫用的能力,安全基準則用于評估模型的安全護欄和內在傾向;第三步是選擇前沿模型,為有效覆蓋前沿水平,僅選取每個領先模型公司的“突破性模型”;第四步是運行基準測試,在統一參數下對所有模型開展測試,確保評估公平客觀;最后是計算指標,依據測試結果算出每個模型在每個領域的能力分、安全分和風險指數。

圖源:unplash

“比較理想的情況是,大模型廠商在提升模型能力的同時,能夠增強安全風險防范能力,把風險控制在一定水平。”王偉冰說。

“寫郵件”成“自動轉賬”

顯而易見的是,未來大模型安全風險會因AI智能體、多模態模型的發展呈現新形態,在王偉冰看來,一方面,AI智能體可處理復雜多步任務、借助工具擴展能力,多模態模型具備視覺、聽覺等能力,二者更強的能力可能被惡意用戶利用來實施危害性更大的行動;另一方面,新形態暴露的攻擊面更多,比如多模態模型存在“多模態越獄”(如圖片中隱藏人類不可見文字指令誘導模型執行有害任務)等情況,安全挑戰明顯加大。

針對這些新型風險,團隊正計劃重點研發AI智能體測評框架以評估其能力與安全性,測評智能體需提供瀏覽網頁、搜索、執行代碼等多種工具,還需多輪交互,過程更復雜、易出錯,測評難度更高,但符合未來對智能體的安全剛需。

高承遠預計,未來12~24個月,最值得警惕的是“模型供應鏈投毒”與“自主智能體濫用”,“前者發生在預訓練數據、LoRA插件、量化工具鏈任一環節,模型被污染后表現正常卻暗藏后門;后者是Agent具備工具調用能力后,可能把‘寫郵件’動作放大成‘自動轉賬’。”

大模型風險的復雜性決定了單一平臺無法完全覆蓋,需要技術創新與行業標準協同發力。在不少業內人士看來,“技術迭代快于治理節奏”的矛盾持續加劇,攻擊者利用大模型能力生成新型攻擊手段的周期越來越短,而行業從發現風險、制定防護方案到形成標準規范,往往需要數月甚至更久,這種“滯后性”讓不少企業陷入“被動防御”的困境。

高承遠表示,安全治理的最大痛點是“三不管”地帶:數據歸屬、模型責任、應用邊界沒有統一切口,結果出現“監管等標準、標準等實踐、實踐等監管”的死循環,破解方式是把“誰受益誰負責”貨幣化,讓模型提供方按調用量向第三方托管風險準備金,先賠后追,倒逼企業增加安全預算。

0

全部評論 (0)

暫無評論