skip to Main Content

人間もボーカロイドを超える未来が来るかもしれない?AIによる音声作成技術!

ここ数年のAIによる音声作成の進歩には目を見張るものがあり、発声技術のあり方を変え、新たな可能性をもたらしています。音声合成からボイスクローンまで、AIはコンピュータとの関わり方に革命を起こし、より自然でリアルな機械との会話を可能にしました。

近い将来、AIによる音声作成がボーカロイドに完全に取って代わり、AIが人間を超えるためにさらなる飛躍を遂げる未来が来るのでしょうか。今回は、AIによる音声作成の情報を紹介し、今後AIによる音声作成の未来について解説します。

 

AI音声作成とは?

AI音声作成(音声合成)とは、リアルで自然な人間レベルの音声を生成する技術の一つです。人工知能(AI)を利用して、ボーカロイドよりもはるかにリアルで人間の会話に近い声や音を作り出すことができます。

「音声合成」とは、音声言語を介したコミュニケーションにおいて話し手側の音声を機械的に作成することであり、聞き手が話し手の会話の意図を機械的に理解する技術を「音声認識」といいます。音声合成の内、任意のテキストを音声に変換する方法を「テキスト合成音声(Text-to-Speech)」といいます。自然言語処理(NLP)や音声合成(TTS)を活用し、録音されたテキストや音楽から音楽的な発声を行う先進技術であり、多くはニューラルネットワークを利用しています。

従来まではどうしても機械的な音声でしたが、ディープラーニングによるAIで行うことで、人間と区別がつかないような発音やイントネーションを実現しています。

 

ディープラーニングとは、ニューラルネットワークという人間の脳の神経回路の仕組みを模した層を利用し、コンピューターが機械学習を行う方法です。ディープラーニングによる機械学習によって開発されたAIが成長すると、現在よりも精度の高い予測や判断を行えるようになり、従来までには実現できなかった新たなサービスなどが発展する可能性が高くなります。

ディープラーニングによる機械学習よって開発されたAIの性能を高めることで、人間により近いさまざまなアクセントのデジタル音声を作成することが可能です。現在、数多くの製品やサービスが提供され、さまざまな分野で導入されてきています。

 

 

様々な製品が出ているAI音声作成

AI音声作成の現状は、精度とニュアンスにおいて、形式も内容も自然でわかりやすくなりつつあり、まるで本物の人間のように声色や表情、方言など、人間に近い音声を作り出すことができます。

AI音声作成のすごいところは、あらゆる製品やサービスに組み込むことができるパーソナライズされた人間のような音声を作成することでビジネスの新しい可能性を切り開いたことです。実際にユーザーの代わりに Googleアシスタントが電話をかけて予約してくれるサービス音声「Google Duplex」やAIによってリアルタイムで音声をかわいらしいキャラクターに変換できるボイスチェンジャー「Seiren Voice」も出ています。

 

CeVIO AI

1つ目は「CeVIO AI」です。

収録音声から「その歌い手らしさ」を作り出すモデルをコンピューターで作り、未知のテキスト(作曲でいう歌詞入力の段階)が来てもその人らしさを再現した音声がAI技術によって出力できるようにするシステムです。たとえば、2021年7月7日にKAMITSUBAKI STUDIO所属の花譜さんをモデルにした「可不」の場合、花譜さんの歌唱データから「花譜らしさ」を習得したニューラルネットワークを構築しているということになります。なので、CeVIO AIの「トーク」には感情パラメータが存在し、音声の感情を自由に表現することができます。

 

また、既存のゲームやアニメのキャラクターをCeVIO AIライブラリ化することで、そのままTTS(テキスト音声合成(Text to Speech)化することも可能であり、自分の好きなキャラクターがそのうち実装されるかもしれません。

 

CoeFont

2つ目は「CoeFont」です。

CoeFontでは、録音した声データを元にAIが音声作成してくれるサービスです。登録されている人の声からテキストで記述した文章を読み上げてもらうこともできます。ゲームのセリフに音声をつけたり、カーナビの音声に設定したり多くの分野での活用が期待されています。

また、CoeFontはPCにインストールする必要がないため、ブラウザ上で使えるだけでなくスマホからでも利用が可能です。文脈に応じて、こちら側で簡単にアクセントなどが自然になるように操作することもできます。実際にCoeFontに小説を朗読してもらうとこんな感じになります。

 

あまりにも人間に近い発音で非常に驚いてしまいます。また、声が付くだけで文字が一気に想像しやすくなる効果も感じられます。CoeFontではたくさんの方がAIによる音声作成をしているので、ぜひ気に入った声で自作の小説を朗読させてみるのをオススメします。

 

 

AI音声作成はボーカロイドに取って代わるか?

この技術から生じる一つの疑問は、AIによる音声作成がボーカロイドに取って代わるかどうかということです。

VOCALOIDは実際の歌手や演奏者がいなくても、リアルな歌声パーツを生成することができる、日本のヤマハが提供する一連のボーカリストライブラリに覆われた歌声合成アプリケーションです。AI音声作成の技術が人間の音声を再現できるぐらい高度になれば、いずれVOCALOIDを超える可能性が生まれ、より魅力的なAI音楽が生まれたり、バーチャルアシスタントとの会話がさらにリアルになるかもしれません。

しかし、AI音声作成はリアルな人間らしさを追求しているところがあるため、VOCALOIDとはまったくの別物であり、取って代わるというよりも、お互いの長所・短所を伸ばし補い合うことで、より便利で精度の高い作品を生み出すのではないでしょうか。

 

VOCALOIDの初音ミクとCeVIO AIの可否による「絶対敵対メチャキライヤー」(作者:メドミア)

どちらもそれぞれ良いところがあるので、使用場所に合わせて臨機応変に使うことをおすすめします。

 

 

AI音声作成の未来

AI音声作成の未来は、何ができるかはまだ始まったばかりで、今後も急速に進化していくでしょう。ひとつだけ確かなことは、AI音声作成の技術は、多くの産業に革命をもたらす可能性があるということです。たとえば、YOUTUBEでも「AIに脚本・朗読・挿絵・作曲してもらった」動画をアップロードしている方もいます。

 

声優や作曲家に依頼しなくても、AIを適切に使いこなすことでこのような作品を作り出すことも可能になってきています。AIでアニメを作ってみたという動画がアップされる日も来るかもしれません。

特定の話者の発声スタイルをシミュレートすることで、全く新しい声を作り出せる可能性があるなど、AIによる音声制作の進化が見え始めています。技術の進歩に伴い、バーチャルアシスタントやゲーム、メディアなど、様々な用途でリアルな音声や音響効果を実現するために、AI音声作成が選ばれるようになるでしょう。

映画でも音楽でも、AI音声作成は制作の質とスピードを向上させ、コスト削減や声優の必要性を減らし、新たな創造と楽しみの可能性を提供することができるかもしれません。

 

 

まとめ

AI音声作成の最新動向は目覚ましく、近い将来、AIが人間のボーカリストを凌駕して主流となり、世界的にその存在感を示す可能性もゼロではないでしょう。完全にAIが良作の作詞・作曲・歌・動画作成を達成する日が来るかも知れません。今後のAI音声作成の動向に大注目です。

 

 

すべてのビジネスマンのための、コンテンツ・文章作成のコツをわかりやすく紹介するブログです。
アイディアの出し方、SNS運用、営業メールの作成コツなどを投稿しています。

Back To Top