英語を聴き取れないのでワトソン「Speech to Text」

…というわけで洋楽にはまってから、アーティストのインタビュー動画も興味があって、よく見るようになりました。

米国アーティストのインタビューを聞き取りたい

今の時代にお恥ずかしながら、英語苦手な上に、しゃべっているのを聞き取るなんて、もっと無理。Facebookのコミュの人たちは、ほとんどネイティブなので、かいつまんで教えてもらいたいのはやまやまなんだけど、彼女たちの好きなアーティストじゃないのでお願いしにくい…1Hrとかのもあるし。

YouTubeの自動生成字幕も自動翻訳の和文も、イミフで速すぎて追いかけれない。一度速度を遅くしてみたのですが、それでもダメでした。アーティストの話し方にも左右されるのかもしれません。

それで、皆さん Dictation はどうしているのだろう？と調べてみました。

英語音声の文字起こしにワトソン「Speech to Text」

まずこちら。
Buckethead の貴重な*1肉声インタビューです。病気と戦っているようなことを言っているみたいなのですが、よくわかりません。

www.youtube.com

どうしても内容を知りたいです。

そこで色々調べた結果 IBM のワトソンという人工知能プロジェクトで提供している「Speech to Text」というサービスを試してみることにしました。サイトにアップロードした音声ファイルをテキスト化してくれます。

Speech to Text Demo

これは

クラウド・プラットフォーム: クラウド・インフラ - IBM Bluemix

というアプリ開発用クラウドの１機能で、30日間は無料でお試しできるというものです。

ほかにもアプリを使う音声認識方法として

音声認識にたどり着く - 音声認識ソフトの実力評価と学習能力活用

こちらのサイトでたくさんのアプリを紹介しています。

動画をダウンロードする

まず Firefox のアドオン「Flash Video Downloader 」を使い、動画をダウンロードします。音声だけ取り出すので、一番画質の低いので大丈夫です（例の Invisor で確認した）。

Evom で音声ファイルに変換

ワトソンの対応音声ファイルフォーマットが「.mp3, .mpeg, .wav, .flac, or .opus 」のみとのことなので、MP3 に変換することにします。

動画ファイルをドラッグ＆ドロップするだけで、いくつかのフォーマットに変換してくれる、「Evom」という便利なユーティリティがあります*2。

Evom をインストールしたら、起動して mp4 ファイルをドロップします

出力先とフォーマットを指定します。

フォーマットは「MP3」、クオリティは「High」に設定します。これを「Medium」以下にしてしまうと、ワトソンで必要とされる 16KHz を下回るのでエラーとなりうまくテキスト化できません。ワトソン側で入力を 8KHz に下げることもできますが、8KHz は narrow band 用となっていますし、精度の高そうな 16KHz のほうを選びました。