大模型安全白皮書
#政策法規 ·2025-11-13 15:57:07
據IDC預測,到2030年,人工智能將為全球帶來22.3萬億美元經濟收入,大模型正驅動百行千業智能化變革,而開源大模型在性能提升、部署成本降低的推動下,加速向政務、金融、能源等重點行業落地,安全風險也隨之滲透到全生命周期,從模型層的提示注入、越獄攻擊,到數據層的敏感信息泄露,再到應用層的智能體越權,任何一處漏洞都可能威脅個人、企業國家的財產安全,甚至是生命安全。清晰的網絡安全邊界正不斷消融、趨于模糊,并延伸至大模型的全鏈路安全,傳統基于規則和特征匹配的防御體系已然失效。

我們正在從傳統的“網絡安全”時代,邁入以“大模型安全”為核心挑戰的新階段。當前威脅呈現指數級演化態勢:一方面,攻擊面急劇擴大,針對算力基礎設的劫持、供應鏈中的惡意櫻型文件、以及利用LangChain等框架漏洞的新型攻擊,表明風險已深度嵌入技術底座。另一方面,攻擊主體高度“平民化",自然語言取代專業代碼成為攻擊武器,提示注入、越獄攻擊讓“全民黑客”從概念走向現實,極大降低了同絡犯罪門樓。與此同時,模型固有的“幻覺"問題、智能體在工具調用中的越權風險、以及數據泄露與知識污染,共同構成了一個多維、動態、交織的復雜威脅矩陣。
面對這一全球性挑戰,中國開創了"發展與安全井重"的敏捷治理之路,以《生成式人工智能服務管理暫行辦法》為代表的“包容審慎、分類分級"原則,為技術創新與風險防控提供了動態平衡的框架。
在此背景下,必須采用以A1對抗A1、原生融合安全的新范式來應對大模型時代的安全挑戰。我們提出“外筑“"以模治模'動態屏障,內固"平臺原生'安全底座的核心理念,將安全能力內嵌于大模型的構建、訓練、部署與運營的全過程。通過構建一個縱深防御、動態演化的全景框架,從基礎設安全、內容與價值對齊、幻覺緩解到智能體行為管控,實現從“網絡安全”到“大模型安全"的范式升維,為人工智能時代提供一個"安全、向普、可信、可控”的底座。
本白皮書系統性地論證了大機型安全正經歷從傳統網絡邊界防御到原生、全棧、智能動態防御的式轉移,并提出“外筑"以模治模"動態屏障,內因"平臺原生"安全底座”的核心理念,覆蓋“安全、向善、可信、可控”四大支柱的全景安全框架,構建智能時代的核心免疫系統。
大模型安全風險是系統性、全棧式的。它貫穿基礎設、模型層、數據層、智能體層及用戶端五大層次,具體表現為算力劫持、供應鏈投毒、內容越獄、型幻覺、知識污染、隱私池露、行為失控以及工具濫用等諸多方面,共同構成了一個傳統安全方案無法應對的復雜威脅立體空間。
攻擊技術持續向高端化演進,例如針對據架和基礎設施的深度利用;與此同時,攻擊主體則日趨平民化,"自然語言黑客”的出現極大降低了攻擊門樓。這導致攻防不對稱性加劇,必須發展出同等智能、動態感知的防御體系。
中國特色的"發展與安全"平衡術中國的治理模式采用“發展與安全井重"的動態平衡策略。通過“包容審慎、分類分級"的監管框架,既劃定安全底線,又為技術快速選代預留了彈性空間,為產業創新提供了關鍵的政策口期。
"以模治模+平臺原生安全"是應對新范式的技術必然。它通過專用安全大模型,例如風險檢測、幻覺糾正與紅藍對抗模型,對抗通用大模型風險,它既具備"外掛式"插件的靈活快讀,又兼具“原生式"的深度安全能力,實現了雙向賦的協同防御,構筑起從模型、數據、內容到行為的全鏈路深度防護體系。
大模型安全的復雜性、全局性,決定了僅靠單一力量的技術或資源難以實現全鏈路、全場景的大模型安全治理。必須通過標準共建、產學研協同--例如開源安全模型、共建聯合平臺,以及組建產業聯盟等形式,匯聚各方力量,共同打造智能時代可信、向的安全基底。這是產業發展的必然要求,也是國家層面的戰略需求。
點擊右側按鈕(獲取完整版文件內容): 下載文件