とある社会人ドクターのブログ

研究や読んだ書籍等の話をします

Googleの音声合成(TTS)で国際会議の口頭発表を乗り切る

概要

  • Googleの音声合成機能を用いて仮の英語原稿を読む音声を作成
  • 音声合成した結果を聞いて時間間隔を測る
  • 合成した音声を仮に動画へはめ込んで全体のバランスを見る

Google text to speech(TTS)とは

Google音声合成機能であるText-to-Speechはテキストを入力すると,そのテキストをWaveNet等の機械が音読してくれるGCPの機能のひとつである.

Text-to-Speechはデモが簡単に体験できます.

以下の文章を音声合成してみます.

“Today I am going to talk to you about how we can do this. My presentation will be in three parts. Firstly I am going to look at the market and the background. Then I am going to talk to you about our new products and how they fit in. Finally, I’m going to examine some selling strategies that will help us increase our sales by 20%. The presentation will probably take around 20 minutes. There will be time for questions at the end of my talk."

f:id:shnhrtkyk:20201009192418p:plain
デモ画面

*デフォルトの Wavenet

これは私が読むには速すぎます.

*速度を落とした Wavenet

この速度ならば私でも読めそうです.

  • 非Wavenet

ちなみにWavenetではない結果は若干違和感があります.

発表原稿作成

上記のTTS機能を用いて発表原稿を音声に変換していきます. 日本語でスライドを作る感覚はあてにならず,持ち時間ぴったりのつもりでスライドと原稿を作成すると大きく時間がずれてしまいます.発表原稿をTTSに喋らせながらスライド1枚あたりの時間を計測していきます.

プレゼン動画作成

ある程度原稿が固まったら,発表動画に入れ込んでいきます.全体の持ち時間と各セクションのバランス等は通してみないとわからないので実際に並べてみると話し足りない箇所や聞いて理解できない箇所が見えています.そこを原稿修正し,最終盤ができたら音声合成の結果を参考に自分で発表原稿を読んで録音します.