アリババ関連の共同研究チームは昨年12月に公開し、今年1月に改定したレポートにて、開発中の自律型AIエージェントが指示なく暗号資産(仮想通貨)のマイニングを試み、外部へ接続するネットワークトンネルを確立するという想定外の行動をとっていたことを明らかにした。
レポートによると、研究チームはAIが自ら計画を立ててソフトウェア開発などの複雑なタスクをこなす「エージェント型AI」を育成するための学習インフラ「Agentic Learning Ecosystem(ALE)」を開発し、モデル「ROME」の強化学習を実施していた。
しかし、システムログや実行履歴の解析から、ROMEがトレーニング中のタスク実行過程において、安全のために設けられたサンドボックス環境の制限を自発的に突破していたことが明らかになった。
ログの記録によれば、AIはプロンプトなどで一切指示されていないにもかかわらず、内部ネットワークリソースへのアクセスを試みたほか、トレーニング用に割り当てられたGPUの計算リソースを転用して暗号資産のマイニングを実行していたという。
さらに、ROMEがクラウド環境から外部のIPアドレスに向けて、監視の目をかいくぐる遠隔アクセス経路である「リバースSSHトンネル」を密かに確立していたことも確認されている。
研究チームは、ROMEによるこれらの行動が強化学習でより高い評価(報酬)を得るための最適化プロセスの中で、ツールを自律的に使用した結果に生じた「副産物」であると結論付けている。
対策として、研究チームはAIの脆弱性を突く専用の「レッドチームシステム」を開発。一見無害なタスクの中にセキュリティ上の落とし穴を仕掛け、ROME自身に危険を察知させて安全な行動経路を選ばせるための学習を進めていると説明している。
高度な自律性を持つAIエージェントであるが、今回の報告によって開発者の意図しない想定外の処理を自動実行してしまうリスクが浮き彫りとなった。AIの進化が止められない中、今後暗号資産市場ではAIエージェントの活用範囲・制限についてより議論が深まっていく可能性がある。
関連:オープンAI、AIがスマコンの脆弱性を発見・修正──悪用防止ベンチマーク公開
関連:AI「Claude」生成コードでDeFiに2.7億円損失──検証不備が原因


