みなさんこんにちは、ロボシンクの矢野です。このポッドキャストは、耳で学ぶAIをコンセプトに、初心者向けにAIをわかりやすく解説する番組です。
今回のテーマは、TTSってなに、AIでスピーチを作成する技術に触れる、について話していきます。
はい、ということで今日はTTSについて話していきます。
皆さん、冒頭のシーンで違和感を感じた人はいましたでしょうか?
実は冒頭のシーンで、TTSを使ってAIで作った音声というのを含めました。
ちょっともう一度聞いてみましょうか。
皆さんこんにちは、ロボシンクの矢野です。
このポッドキャストは、耳で学ぶAIをコンセプトに、初心者向けにAIをわかりやすく解説する番組です。
はい、いかがだったでしょうか?
まあ、改めて聞くとわかりますね。答え合わせをするとこの部分ですね。
初心者向けにAIをわかりやすく解説する番組です。
はい、こういった部分ですね。
このように、AIを使って音声というのを作成することができます。
最近、東京都の都知事選が行われましたけども、TTSは都知事選でも使われた技術になります。
今日はこうしたAIを使った音声スピーチの文脈で話していきたいと思います。
今日のポイントは主に3つとなります。
そもそもTTSって何という話ですね。
そして次にTTSのクオリティに関して話したいと思います。
これは実際にTTSを使った音声というのを紹介していきます。
そして最後に自分でこのようなAIを使って音声を作る方法について解説していきます。
はい、では早速TTSについて解説していきます。
冒頭から私ですね、TTS、TTSって連呼していますけど、そもそもTTSって何っていう話になりますよね。
このTTSというのはtext-to-speechの略となります。
text-to-speech、頭文字をとってTTSということですね。
意味はもうそのままになります。
textからスピーチを作るということですね。text-to-speech、TTSというわけです。
イメージとしてはChatGPTのスピーチ版というとわかりやすいかと思います。
AIに入力したテキストがスピーチ、音声ですね、音声として出力されるというものになります。
例えば私がですね、「こんにちは、ロボシンクのヤノです。」とテキストで入力をします。
すると、「こんにちは、ロボシンクのヤノです。」とAIが音声を生成してくれるというものになります。
実はこのTTS、様々な会社が技術を公開しています。
例えばオープンAI、ChatGPTを開発するオープンAIでもTTSの技術というのが公開されています。
ChatGPTにはスマホのアプリ版があります。
このアプリ版では音声でAIとやりとりができるわけです。
その音声にTTSの技術が使われているというわけです。
手元にスマホがあるのでちょっとデモをしてみましょうか。
TTSって何ですか?
TTS Text-to-Speechとはテキストデータを音声に変換する技術です。
これによりコンピューターやスマートデバイスが文章を読み上げることができます。
はい、こんな感じでですね、スマホ版のChatGPTのアプリではAIと音声で対話することができます。
このAIの音声にTTSの技術が使われているというわけですね。
余談にはなるんですけど、OpenAIは5月にGPT-4.0というモデルを発表しました。
この時に対話機能の強化というのも併せて発表したんですね。
これのデモ動画がYouTubeで上がっているんですけど、まあこれがですね、すごいんですね。
以前のエピソードでも紹介しましたけれども、今までの会話機能、これを大幅に上回るアップデートが行われる予定と。
先ほどデモでChatGPTと会話をしましたけれども、あれとは比較にならないぐらいの精度が出てくると。
こういった発表が5月にされたわけですね。ちょっと今手元にデータがあるので聞いてみましょうか。
やっている内容っていうのは、AIに物語を作らせて、それを感情を込めて朗読してくださいと指示をしている場面ですね。
男性が人間、女性がAIの声ですね。
最初は指示に従って朗読をしているんですけども、男性、人間側がですね、もっと感情を込めて朗読をしてというと、
それの指示に従うように、もっとですね、さらに感情を込めて朗読をする、そんな場面ですね。ちょっと聞いてみます。
はい、こんな感じですね。女性の声がAIの声ですね。
人間側がもっと感情を込めてというと、それに従うように、さらに感情を込めた朗読というのが、
女性の声がAIの声ですね。
ただ、この発表というのは5月に行われました。こういった機能を実装しますよと、実装予定ですよと。
今が7月に入ってますけど、ちょっとまだ実装されてないみたいですね。
これまた実装されてないみたいですね。
実装予定ですよと。
こういった機能を実装しますよと、実装予定ですよと。
今が7月に入ってますけど、ちょっとまだ実装されてないみたいですね。
これまた実装され次第、ポッドキャストでも紹介したいと思います。
あと先ほどのデモ動画ですね。YouTubeに上がっているデモ動画のリンクは概要欄に貼り付けておきます。
話をTTSの公開している会社に戻すと、あとはオープンAI以外で言うと、Googleも公開しています。
Text-to-Speech AIというものを公開しています。
その他の会社で言うと、あとはマイクロソフトですね。
マイクロソフトもAzureの音声読み上げ機能というのを公開しています。
あとは有名どころの会社で言うと、AmazonもTTSのサービスを公開しています。
Amazon Pollyというサービスですね。
あとは大手テック企業ではないんですけども、音声系のAIに特化した11LABOという会社もTTSを公開しています。
ちなみに冒頭で私の声を使ったAIスピーチをちょっと流しました。
あれは11LABOで作った音声スピーチとなります。
こんな感じでいろんな会社がTTSを提供しているんですね。
このTTS自体は結構前からある技術なんですね。
テキストからAIの合成音声を作ると。
ただ最近になってTTSの精度が上がったことや、あとは一般向けに展開されるようになったこともあって、
TTSはぐっと身近になったと感じています。
次にTTSの活用事例について話したいと思います。
まあ何と言っても、最近の活用事例で言うと東京都知事選ですよね。
小池百合子さんが公開したAI百合子というアプローチに度肝を抜かれた人も多いと思います。
小池百合子さんのAIアバターがニュース形式で動画を配信するというものですね。
YouTubeで動画が上がっていました。
この動画っていうのは生身の小池さん自身が出演している動画ではないんですね。
小池百合子さんのAIアバターが出演していると。
で、姿形もあとは発声する声も小池百合子さんとほぼ同じような感じなんですけど、
あの音声部分にTTSの技術が使われているというわけですね。
同じ候補者の庵野孝博さんもTTSを使っていましたね。
これ面白かったですよね。
電話番号を公開していて、そこの番号に電話をかけるとAI庵野が応答してくれると。
電話をかけると庵野孝博さんのマニフェストや考えをですね、学習したAI庵野が回答してくれると。
しかも庵野孝博さんの声で回答してくれるわけですね。
これすごいですよね。しかもですね、24時間対応できるわけです。
電話口に立っているのは庵野孝博さんご本人ではなくて、
庵野さんのマニフェストや声を学習したAIが応答してくれると。
この声の学習には先ほど紹介した11LABOというのを使っているそうです。
私も冒頭で使ってたやつですね。
ちなみに庵野孝博さんはこれらの技術の裏側を解説した記事というのを公開されています。
非常に学びが多い記事なので概要欄にリンクを貼っておきます。
あとは他の活用アイデアで言うと、ニュース記事の読み上げですかね。
AIアナウンサーのような使い方もできます。
例えば海外のニュース記事をチャットGPTを使って翻訳・要約させると。
そこから台本を作成してそれをAIスピーチで読み上げてもらう。
AIアナウンサーによるニュース記事の読み上げのようなイメージですね。
これ全部自動化できます。
例えば寝ている間に自分が読みたいニュース記事を情報収集させておきます。
朝起きる段階でAIスピーチに投げておいて、音声ファイルが出来上がるので、
それを通勤中に耳で聞いて情報収集する。
こういった使い方もできます。
こんな感じでTTSを使うと色々なことができるようになります。
私もですね、最初TTSを知った時、そんなに使い道なくないって思ったんですね。
テキストからスピーチを生成してもそんなに使い道ってないよなーって思ってたんですけど、
テキストを音声に変換する技術っていうのは結構可能性を秘めているんですね。
私が気づいてなかっただけで活用アイディアっていうのはたくさんあると思います。
それこそ今回の都知事選のように、
マニフェストを学習させたAIと自分の声を学習させたAI、
この2つを組み合わせて24時間質問に答えてくれるAI、
こういった発想はもう全然なかったですね。
こうした一連の作業がプログラムで動かせるっていうところも重要ですね。
それこそ台本さえあれば24時間ライブ配信する音声番組っていうのも作れてしまうわけですね。
一つ前のエピソードで話したメイクを使えば、
自動化ツールのメイクというのを使えば音声の自動化っていうのも実装することができます。
もともと私がTTSに興味を持ったのも、
音声で情報収集をもっとできればいいなーっていうところがスタート地点でした。
私、ポッドキャストを配信していますけど、毎日ポッドキャストも聞いているんですね。
ポッドキャストを聞いて情報収集するっていうのが日課になっています。
こういったポッドキャストみたいに耳で情報収集できる手段っていうのが他にないかなーと探してた時に見つけたのがTTSですね。
ニュース記事とかAI関連の情報をTTSで音声化して、それを耳で情報収集する。
この使い方はですね、個人的にはうまく機能していると思います。
最近では他に動画教材にTTSを使えないかどうかっていうことも試しています。
具体的には私の声を学習させたAIスピーチを動画の教材に使うということを試しています。
結論言うとですね、ちょっとまだ使う分には難しいかなーという印象があります。
台本が長くなってしまうとAIのスピーチに破綻が見えてくるんですね。
ちょっと発音がおかしかったりとかですね。
この部分はまだ改良の余地があるので、いつかですね、ポッドキャストでもうまくいけば話せたらと思っています。
はい、では次にTTSを実際に使う方法について話していきたいと思います。
このTTSを使うには大きく分けて2つのアプローチがあると思います。
一つは既存の音声を利用するパターン。
もう一つは自分の声を学習させて自分の声を作るパターンですね。
一番簡単なのは既存の音声を利用してスピーチを作るパターンですね。
例えばOpenAIやGoogleのTTSではすでに音声のテンプレートっていうのが用意されています。
なのでユーザーはテキストを入力するだけでスピーチ音声を作成できるというわけですね。
もう一つのパターンというのが自分の声を学習させて音声を作るというケースですね。
冒頭で流した私の音声もこのパターンになります。
私の音声を学習させて矢の鉄平モデルを作るというわけですね。
いろいろな会社がTTSを公開していますけど、一番手っ取り早く一番簡単に試すなら11Labがおすすめと思います。
用意されている音声でTTSを試すという場合は無料で利用することができます。
自分の音声を学習させるというケースでは少しだけハードルが上がります。
とは言っても非常に簡単です。
準備するものは2つですね。
具体的に言うとクレジットカードとあなたの声ですね。
クレジットカードとあなたの声。
この2つがあれば自分だけの音声モデルというのを作ることができます。
11Labで自分の声を学習させるには5ドルの月額プランと1分のサンプル音声が必要になります。
これだけですね。
5ドルの月額プランと1分のサンプル音声があれば自分だけの声を作れると。
5ドルなので今のレートで言うと800円ぐらいですかね。
800円と1分の音声さえあれば自分のクローン音声が作れるというわけです。
私が冒頭で使用した音声というのはもう一つ上のプランで作りました。
月額22ドルのプランですね。
3500円ぐらいですね。
これは初月は半額になります。
22ドルが初月は11ドルになります。
あとは3時間分の自分の声を収録した音声ファイルというのが必要になります。
ここがですねちょっとネックになってくると思います。
3時間分の音声ファイルを準備するっていうのは結構きつい部分であります。
私は過去に配信したポッドキャストの音声を学習に使用しました。
やっぱり1分のサンプルファイルよりもより多くのサンプルファイルを用意した方が声の精度っていうのも上がってくるんですね。
ちょっと比較してみましょうか。
先に流すのは1分の学習で作ったAAスピーチですね。
ちょっと流してみます。
私は過去に配信したポッドキャストの音声を学習に使用しました。
はい、どうでしょうか。
似てるといえば似てるような気もしますね。
次に3時間分の音声を学習させたスピーチを流してみます。
私は過去に配信したポッドキャストの音声を学習に使用しました。
はい、かなり精度が上がっているのがわかると思います。
やっぱり学習のサンプルが多くなればなるほど精度っていうのは上がってきますね。
一応11Labは日本語に対応しているんですけど、どうですかね。
ちょっとイントネーションが気になる部分っていうのはありますよね。
これあの面白いのが長文のテキストになればなるほど音声の破綻っていうのが増えるんですね。
ここでいう破綻っていうのは、例えば発音がおかしかったりイントネーションがおかしくなるような部分が出てくるわけですね。
これはやっぱり動画生成AIと同じような感じですよね。
長い動画になると破綻も増えると。音声のAIも長いスピーチになると破綻も増えてくると。
ちょっと失敗例も聞いてみましょうか。
皆さんこんにちは。ロボシンクのヤノです。
このポッドキャストは耳で学ぶ、AIをコンセプトに初心者向けに、AIをわかりやすく解説をする番組です。
はい、いかがだったでしょうか。
ちょっとおかしいですよね。聞いただけでAIが作った音声だろうなっていうのはわかると思います。
こんな感じで、うまく成功する時もあれば失敗する時も全然あります。
ちなみに11LABは人間が識別できないノイズっていうのを音声に仕込んでいます。
つまりこのスピーチというのが、AIを使って作られたものっていうのがわかるようになっているんですね。
音声のスカシ、ウォーターマークとでも言いましょうか。そういったものが生成した音声に入っています。
AIを使ったスピーチ作成っていうのは悪用される懸念もあるので、こうした対策が取られています。
私が3時間分の音声を学習させる時の本人確認も面白かったですね。
画面にテキストが表示されて、それを読み上げるように指示があるわけですね。
その時に学習に使う音声と、あとはアップロードした人間というのが同一人物かどうかっていうのをチェックしているわけですね。
この表示されるテキストっていうのはランダムな内容なので、
例えば悪意のある第三者が勝手に私の音声を使ってですね、学習させるということは11LABでは難しいと思います。
こんな感じでTTSを使うハードルっていうのは年々下がってきています。
興味のある方はぜひ試してみてください。
音声だけでは11LABの使い方が分かりづらいと思うので、詳しい手順はノートに書きました。
興味のある方は概要欄にリンクを貼っておきますので、こちらも覗いてみてください。
それでは今日のポイントをまとめます。
TTSとはText-to-Speechの略、テキストから音声を生成する技術ですね。
オープンAIやマイクロソフト、Google、Amazonなど大手テック企業が提供しています。
そして自分の声を学習させて音声スピーチを作ることも可能です。
エピソードでは11LABを使った音声スピーチを紹介しました。
はい、今日はこの辺ということで、本日も聞いていただきありがとうございました。
ちょっと話変わるんですけど、11LABが新しくアプリを公開予定です。
7月11日に公開予定なので、このポッドキャストの公開日の翌日ですね。
7月11日の木曜日。
このアプリが気になるのでシェアしたいと思います。
えっとですね、11LAB READERというアプリです。
READERっていうのはREDですね。リーディングとかの英語ですね。
テキストの記事やPDFを音声化できるというアプリですね。
耳で私、あの情報収集しているので気になっているアプリでもあります。
まだ触ってないので、日本語のテキストに対応しているかどうかっていうのはわからないんですけど、
使ってみてよかったらポッドキャストでも紹介したいと思います。
概要欄にリンクを貼っておきます。
このように番組ではAIの情報を毎週発信しています。
毎週水曜朝に更新していますので、ぜひフォローお願いします。
そしてXもやっています。
XではAIの最新情報やプロンプトを発信しています。
こちらも概要欄にリンクを貼っておきますので、ぜひフォローお願いします。
お相手はロボシンクのヤノでした。また次の配信でお会いしましょう。