はじめに——「作る側」の責任を知ることが、使う側の安心につながる

この連載では、第1回でAIガバナンスの基本理念を確認し、第4回でAIビジネスに関わる「開発者・提供者・利用者」という3つの立場を整理しました。多くの中小企業にとって身近なのは「利用者」の立場ですが、今回はあえて視点を変えて、「自社でゼロからAIを作るような企業」——つまりOpenAI、Google、Anthropicのような世界的IT企業、あるいは独自のAIモデルを開発する研究機関——に課せられている厳しいルールについて解説します。

「うちはAIを作る側じゃないから関係ない」と思われるかもしれません。しかし、皆さんが日常的に使っているAIサービスの裏側で、どれほど厳重な安全管理が行われているかを知ることは、AI活用への信頼と安心感につながります。また、AIを導入する際に「このサービスは信頼できるのか」を判断するための基礎知識にもなるのです。

第7回で取り上げた透明性と説明責任が「AIの振る舞いを見える化する」取り組みだったのに対し、今回はさらに踏み込んで、AIが世に出る前の段階——開発プロセスそのものに組み込まれた安全装置について見ていきましょう。

開発者に求められる3つの責務——安全なAIを世に送り出すために

AI事業者ガイドラインは、AI開発者に対して、単に「高性能なAIを作ること」だけでなく、「安全なAIを世に送り出すこと」を強く求めています。その責務は、大きく3つに分けて理解できます。

データの公正さを守る——偏りのない学習データの点検

AIは大量のデータから学習しますが、そのデータ自体に偏りがあれば、AIの判断にも偏りが生まれます。第6回で詳しく解説したバイアスの問題は、まさにこのデータの段階から始まるのです。

たとえば、過去の採用データだけを使ってAIを学習させた場合、過去に男性が多く採用されていた職種では「男性のほうが適性がある」とAIが誤って判断してしまう可能性があります。開発者には、学習に使うデータにこうした偏りがないかを徹底的に点検し、偏りが見つかった場合は修正する責任があります。

これは「データの品質管理」と言い換えることもできます。製造業で原材料の品質をチェックするのと同じように、AIの原材料であるデータの品質を保証することが、開発者の第一の責務なのです。

予期せぬ動作を防ぐ——ガードレール技術の実装

自動車の道路にガードレールがあるように、AIにも「暴走」を防ぐための安全装置が必要です。AI開発の世界では、これをガードレール技術と呼びます。

ガードレール技術とは、AIが危険な出力や不適切な回答を生成しないように制御する仕組みのことです。具体的には、暴力的な内容の生成を阻止するフィルタ、個人情報を含む回答を検知してブロックする機構、あるいは事実と異なる情報を出力した際に警告を出す仕組みなどが含まれます。

AI事業者ガイドラインでは、こうしたガードレール技術をAIの開発段階から組み込むことを求めています。つまり、完成後に安全装置を「後付け」するのではなく、設計の初期段階から安全性を織り込む「セーフティ・バイ・デザイン」の考え方が重要視されているのです。

第5回で解説した「人間中心」と「安全性」の原則が、ここで具体的な技術として実装されるわけです。

後から検証できる体制——作業記録の保存

3つ目の責務は、開発のプロセスを記録として残すことです。どのようなデータを使い、どのようなテストを行い、どのような判断で設計を変更したのか。こうした作業記録を保存しておくことで、万が一AIが問題を起こした際に、原因を遡って調査することが可能になります。

これは第7回で触れた説明責任と深く結びついています。「なぜこのAIはこのような判断をしたのか」という問いに答えるためには、開発段階の記録が不可欠だからです。

医薬品の製造記録や食品のトレーサビリティと同じ発想です。AIという「見えにくい製品」だからこそ、開発の過程を透明にしておくことの重要性は、むしろ従来の製品よりも大きいと言えるでしょう。

世界の約束——広島プロセス国際行動規範とは

AI開発者に求められる責任は、日本国内のガイドラインにとどまりません。2023年、G7の議長国であった日本の主導により、高度なAIシステムを開発する組織に向けた国際的な行動規範が合意されました。これが「広島プロセス国際行動規範」です。

G7が真剣に向き合った「AIの脅威」

広島プロセスが注目に値するのは、単なる「お行儀のいいAIを作りましょう」という程度の話ではない点です。そこで議論されたのは、大量破壊兵器の開発にAIが悪用されるリスク、国家規模のサイバー攻撃にAIが利用される危険性、そして民主主義の根幹を揺るがすような偽情報の大量生成といった、映画やSF小説のような、しかし現実に起こりうる脅威でした。

G7という世界の主要国が集まり、こうした脅威を正面から議論し、具体的な行動規範として11の原則にまとめたという事実は、AIの影響力がそれほど大きくなっていることの証です。

11の原則の中核——レッドチーミングの義務

広島プロセスで合意された11の原則の中でも、特に注目すべきはレッドチーミングの実施義務です。レッドチーミングとは、AIシステムを意図的に攻撃者の視点でテストすることです。

通常の品質テストが「AIが正しく動くか」を確認するのに対し、レッドチーミングは「AIをどうやって悪用できるか」を本気で探ります。大量破壊兵器の製造手順を引き出せないか、差別的な出力を誘発できないか、セキュリティの抜け穴はないか——こうした攻撃的なテストを、開発者自身が(あるいは専門の第三者機関に委託して)実施することが求められているのです。

軍事における「レッドチーム」の概念を借りたこの手法は、AIの安全性を確保する上で最も実効性の高い取り組みの一つとして世界的に認知されています。OpenAIやGoogleといった大手AI企業は、すでにレッドチーミング専門のチームを社内に設置しています。

電子透かしと透明性報告書

広島プロセスが求めるもう一つの重要な取り組みが、電子透かしの導入です。AIが生成した文章や画像、音声に、人間の目には見えない識別情報を埋め込む技術です。

AIが生成したコンテンツが人間の作品と見分けがつかなくなりつつある現在、「これはAIが作ったものです」と識別できる仕組みの重要性は日増しに高まっています。電子透かしは、その識別を技術的に支える手段です。偽情報の拡散を防ぎ、コンテンツの出所を明らかにするために、AI開発者はこうした識別技術の研究と実装を進める必要があるとされています。

さらに、開発したAIの能力と限界を正直に公表する「透明性報告書」の作成も求められています。「このAIはこういうことが得意ですが、こういう場面では間違えやすいです」という情報を公開することで、利用者が適切な期待値を持ってAIを使えるようにする取り組みです。

なぜ中小企業も知っておくべきか——「裏側の安全装置」を理解する意味

ここまで読んで、「開発者の話は分かったけれど、やはり自分たちには直接関係ないのでは」と感じた方もいるかもしれません。しかし、この知識には中小企業にとっても明確な意味があります。

AI選定の判断材料になる

AIサービスを導入する際に、「このサービスはレッドチーミングを実施しているか」「透明性報告書を公開しているか」「ガードレール技術はどの程度実装されているか」を確認することで、信頼できるサービスを見極める目が養われます。

第3回で解説したアジャイル・ガバナンスの考え方に基づけば、AI環境は常に変化しています。新しいサービスを導入するたびに、開発元がどれだけ責任ある開発を行っているかをチェックする習慣を持つことは、自社のリスク管理に直結するのです。

取引先への説明に使える

大企業との取引において、「御社はAIの安全性をどのように確保していますか」と問われる場面は増えています。そのとき、「私たちは信頼性の高い開発者のサービスを選定しており、その開発者は広島プロセスに沿ったレッドチーミングや透明性報告書の公開を行っています」と答えられるかどうかは、ビジネス上の信頼に関わります。

AIの安全性は、もはやIT部門だけの話ではなく、経営者が語れるべきビジネス知識になっています。

業界全体の信頼を支える

中小企業がAIの安全基盤について理解を深めることは、業界全体の健全な発展を支えることにもつながります。「AIは危険だ」と闇雲に恐れるのでも、「便利だから何でも使おう」と無批判に受け入れるのでもなく、仕組みを理解した上で適切に活用する——こうした姿勢が広がることで、社会全体のAIリテラシーが向上していくのです。

用語集

この記事で登場した専門用語を改めて整理します。

ガードレール技術

AIが危険な出力や不適切な回答を生成しないように制御するための安全機構の総称です。暴力的・差別的なコンテンツの生成を阻止するフィルタ、個人情報の漏えいを検知してブロックする仕組み、事実に反する情報の出力を抑制する機構などが含まれます。自動車のガードレールが車の逸脱を防ぐように、AIの出力が許容範囲を超えないように「壁」を設ける技術です。

レッドチーミング

AIシステムを攻撃者の視点で意図的にテストし、脆弱性や悪用可能性を発見する手法です。名前の由来は、軍事演習で敵役を務める「レッドチーム」から来ています。通常のテストが「正しく動くか」を確認するのに対し、レッドチーミングは「どうやって壊せるか」「どうやって悪用できるか」を積極的に探るものです。広島プロセス国際行動規範でも、高度なAIシステムの開発者に対して実施が求められています。

電子透かし

AIが生成した文章、画像、音声、動画などのコンテンツに、人間の知覚では気づきにくい識別情報を埋め込む技術です。紙幣に透かしが入っているのと同様に、デジタルコンテンツの出所や真正性を確認するために使われます。AI生成コンテンツと人間が作ったコンテンツを区別することが難しくなっている現在、偽情報対策の重要な技術として注目されています。

参考資料

まとめ——次回はいよいよ最終回

今回は、AI開発者に求められる厳格な責任と、G7広島プロセスという世界規模の約束について解説しました。ガードレール技術、レッドチーミング、電子透かしといった具体的な安全対策は、AIが社会に与える影響の大きさを物語っています。

次回はいよいよ最終回です。多くの中小企業が該当する「AIを使う側」の現場ルールを取り上げるとともに、全10回の連載を振り返りながら、AIと共に歩むこれからの企業経営について考えます。

次回: AIを使う現場のルールと、私たちが目指す未来

この連載の記事一覧