OpenAIは、Voice Engineという、音声合成の新しいツールを発表した。この技術は、15秒の音声サンプルを分析して任意の話者の声や喋り方を模倣できる声のクローニング技術だ。OpenAIは、この技術が「自然に聞こえる音声」を生成し、「感情的でリアルな声」を実現すると述べている。
確かに、OpenAIのサイトでデモの声を聞くと全く違和感がない。最近はテレビでもAIが読み上げるコンテンツが、ニュースなどでも見るようになったが、かつてのように機械が喋っているような感じはなく自然だ。さらに、このVoice Engineを使えば、特定の人の声で同じようにコンテンツが作れる。
この技術は、既存のテキスト・ツー・スピーチAPIに基づいており、2022年から開発が進められているという。OpenAIは、既にこのツールを使用して、現在のテキスト・ツー・スピーチAPIおよびRead Aloud機能で利用可能なサービスの提供を開始している。OpenAIは、この技術が読書支援、言語翻訳、突然または進行性の発話障害を持つ人々を助けるために役立つとしている。
具体的には、教育の分野での活用だ。幼児や読書ができない人向けに自然な感情表現が可能な音声を提供することができる。翻訳でも大きな可能性を持つ。多言語対応が可能となり、コンテンツのグローバル化を促進する。今までの吹替が他の声優により違う声で行われていたが、この技術によりオリジナルの俳優の声で自然に別の言語のコンテンツを実現する。結果的に声優のニーズが激減するだろう。
しかし、この技術は悪用される可能性が高く、特に選挙年には問題が発生する可能性は高い。個人や組織のなりすましが簡単にできるからだ。政治家や著名人の声を不正に模倣し、虚偽の情報を拡散することで、煽りや世論形成に影響を及ぼす可能性がある。これにより、政治的な操作や社会的な混乱を引き起こす恐れが考えられる。
これにも関連して偽情報の拡散もリスクの一つだ。ディープフェイク音声を作成して、実在しない会話や声明を作り出し、メディアやソーシャルネットワークを通じて拡散することで、偽情報や陰謀論が広まるリスクがある。これにより誤解を招き、信頼性のある情報源に対する信頼が損なわれる恐れがある。
また、声のなりすましが可能になり、一部で使われている音声認識によるセキュリティは意味をなさなくなる。さらに、特定の人の声を生成して、詐欺や個人情報の盗難が行われる可能性がある。例えば、電話での詐欺において、犯罪者が被害者の知人の声を模倣して信用を得る手法が考えられる。
これらのリスクに対処するため、できることは限られている。誰かが他人の声を収集して利用することを止めることはできないからだ。生成された音声に透かしを入れることで、音声の起源を追跡できるようにし、不正使用の監視体制を整えることが重要だ。だが、デジタルコンテンツとして利用される際には、これにより抑止力となるが、オレオレ詐欺のように日常生活で電話などでの利用には無力だ。その意味では、電子透かしは、この技術が日常生活で悪用される可能性には対応はできない。