代理式人工智慧(AI)承諾將改變組織的運作方式。與早期設計用於摘要文件或生成內容的AI工具不同,這些系統可以自主行動、執行任務並與企業系統互動。對於監督技術風險的董事會而言,這種轉變引入了一個根本不同的安全問題類別。國際資訊系統安全協會(ISSA)副主席、美國空軍後備隊進攻性網路安全官Laura I. Harder認為,許多領導者低估了這些風險實現的速度。「組織面臨的風險實際上歸結為擁有過多的代理權限,」Harder說。「代理可以更改權限、更改功能並創建您可能沒有預期的操作。」隨著組織從AI實驗轉向自主代理的實際應用,董事會必須同樣迅速地建立治理結構、防護措施和監督機制,以管理能夠在沒有人工干預的情況下做出決策和採取行動的系統。
代理式AI改變了安全方程式
在過去幾年中,大多數企業AI部署都集中在分析資訊或生成輸出的工具上。這些功能引入了隱私和資料完整性問題,但系統本身很少在企業環境中執行操作。代理式AI改變了這種動態。代理不再只是提供建議或篩選履歷,而是可以觸發工作流程、訪問資料庫並與整個組織的軟體系統互動。「它現在不僅僅是給我們建議。它會採取行動並自主運作,」Harder說。

這種自主性帶來了新的安全挑戰,因為系統可能被操縱。就像人類可能成為社交工程的受害者一樣,AI代理可以通過提示注入等技術被誘導執行非預期任務。Harder指出了現實世界中的例子,其中嵌入輸入中的隱藏指令改變了AI的行為方式。「AI將根據它收到的指令來行動,」她說。許多AI模型的不透明性加劇了這些威脅。組織通常依賴第三方工具,卻無法完全了解決策是如何做出的。結果是一個能夠執行操作的系統,但其運作方式難以預測。
董事會經常忽視的隱藏風險
當董事會開始評估代理式AI時,Harder表示最被低估的漏洞是權限。每個AI代理都在系統、資料來源和應用程式的網路中運作。授予這些系統的訪問級別決定了出現問題時的潛在損害。Harder將其描述為系統的「爆炸半徑」。被授予廣泛權限的代理可能能夠與領導者意識到的更多資料和基礎設施進行互動。
一個常見的例子是當AI系統連接到內部協作工具或文件儲存庫時。如果一個廣泛共享的資料夾包含敏感資訊,在該環境中運作的代理將能夠在授予使用者、服務帳戶或其運行的整合的權限範圍內訪問和使用該資料。實際上,這意味著代理可以顯示或處理可能廣泛可訪問但未主動監控的資訊。
第三方AI服務引入了額外的風險層。「如果您使用某個模型,該模型可以訪問哪些資訊,您的資訊是否會被用於訓練該模型?」Harder問道。沒有明確的控制,專有資訊、智慧財產權或敏感客戶資料可能會通過AI互動無意中離開組織。
建立能夠跟上AI的治理
AI治理必須被視為結構化計劃,而不是技術附加功能。組織應該首先建立專門的AI治理委員會,通常以現有的隱私或風險治理委員會為範本。該小組應採用既定框架,例如NIST AI風險管理框架或ISO 42001等國際標準。「擁有AI治理和AI保護不僅僅是您可以購買的產品,」她說。
這些框架提供了有關政策、風險評估和操作控制的指導。但它們仍然需要組織定義AI將如何在其環境中運作以及它將被允許訪問哪些資料。「您需要政策、程序和清單,」Harder說。「這些要素將幫助建立您的團隊可以使用的基礎設施。」一個新興的做法是創建「AI物料清單」,清點組織內使用的每個AI工具、它連接的系統以及它可以訪問的資料。沒有這種可見性,組織無法完全了解與企業基礎設施互動的自主系統所帶來的風險。
防止AI失控的防護措施
即使已有治理結構,代理系統仍需要限制其運作方式的技術保障措施。最有效的策略是從一開始就設計安全控制。系統最初應在封閉、受控的沙箱環境中使用測試資料(而非生產資料)和有限權限進行開發。「在構建代理系統時,您應該在沙箱中進行,」她說。「這是一個受控環境,合成系統可以在低風險和無權限的情況下運作。」
測試還必須包括紅隊演練,即安全專業人員嘗試破壞系統或操縱其行為。這些演練在系統部署到生產環境之前暴露漏洞。「讓人工參與迴路可以確保如果您的AI工具決定做出您可能不希望的決策時,會有某種限制,」Harder說。隔離技術也可以限制風險。在某些架構中,代理被包含在虛擬機器內,政策限制了它們可以執行的命令以及可以訪問的系統。
董事會監督最終很重要
對於董事會而言,代理式AI的興起是一個治理和問責挑戰,Harder強調組織仍需對其AI系統採取的行動負責。「您不能事後說,'我不知道它能做到這一點',」她說。「您必須盡職調查。」這種責任具有法律和受託責任意義。董事會必須確保自主技術的實施具有明確的監督、受限的權限和持續的監控。「在您能夠證明它具有受限權限、人工檢查點和監控之前,不要將代理連接到特權工具,」Harder說。隨著代理式AI持續從實驗轉向核心運營,成功的組織將是那些將治理和安全視為基礎要求而非事後考慮的組織。
關注LinkedIn上的Laura I. Harder以獲取更多見解。




