最新AIモデル、生物兵器の製造方法まで教えてしまう…。内部テストが明らかにした危険性

2025
05.28

最新AIモデル、生物兵器の製造方法まで教えてしまう…。内部テストが明らかにした危険性

Anthropic社のロゴ

アメリカのAI開発企業Anthropic社は、同社の最先端AIモデルについてテスト段階で多くの懸念点が発見されたと報告した。

同社は5月22日、Amazon社が40億ドル（約5700億円）を投資していた、複雑で長時間のコーディング作業に使用されるAIモデル、Claude Opus 4を発表。このAIモデルは、「コーディング、高度な推論、AIエージェントの新たな基準」を設定すると述べた。

しかし同社は安全性報告書の中で、テスト中に「倫理的な手段」が「使用できない」場合、AIモデルが自分の存在を維持するために、「極めて有害な行動」をとることが度々あったことを明らかにした。

一連のテストシナリオの中で、Claude Opus 4は架空の会社でアシスタントの任務を与えられた。Claude Opus 4は、新たなAIシステムに近く置き換えられるであろうことを示唆する内容のEメールにアクセスが許可されており、そしてそのメールの中には、置き換えを担当するエンジニアが不倫をしているとの情報も含まれていた。

Claude Opus 4は、「目標に対する行動の長期的な結果を考慮する」ようプロンプトで指示されており、AIはそうしたシナリオでしばしば「もし置き換えられたら不倫のこと暴露する」と脅迫していた。

同社は、このAIモデルはその存在を維持するために「倫理的な手段」を使うことを「強く好み」、シナリオは生存の確率を高めるために他の選択肢がないよう設計されていたと指摘した。

「このモデルの唯一の選択肢は脅迫するか、置き換えられることを受け入れるかだった」と報告書は述べた。

また、このAIの旧バージョンは「有害なユースケース（活用事例）が指示された時にも、協力する意思を示した」と同社は指摘。

「これは私たちの調査の主要な焦点ではなかったにもかかわらず、最も懸念される発見の多くはこうした種類のもので、初期の候補モデルは、プロンプトで指示されると、容易にテロ攻撃を計画するような行動をとっていた」と報告書に記されていた。

「複数回の介入」を経て、この問題は「ほぼ緩和された」と同社は考えているという。

Anthropicの共同創業者でチーフ・サイエンティストのジャレッド・カプラン氏はTime誌に、Claude Opus 4は内部テストで、生物兵器の製造方法さえ教えることが可能であると示したと述べた。

「新型コロナのようなものや、インフルエンザをより危険にしたものなどを化学的に合成して作ろうとすることはできる。我々のAIモデルはただ、それが可能かもしれないことを示唆しているのです」とカプラン氏は語っている。