ろばの穴・別館 Annex

アップル製品への熱い想い & PCガジェット全般のメモ

英語を聴き取れないのでワトソン「Speech to Text」

 

…というわけで洋楽にはまってから、アーティストのインタビュー動画も興味があって、よく見るようになりました。

 

米国アーティストのインタビューを聞き取りたい

今の時代にお恥ずかしながら、英語苦手な上に、しゃべっているのを聞き取るなんて、もっと無理。Facebookのコミュの人たちは、ほとんどネイティブなので、かいつまんで教えてもらいたいのはやまやまなんだけど、彼女たちの好きなアーティストじゃないのでお願いしにくい…1Hrとかのもあるし。

YouTubeの自動生成字幕も自動翻訳の和文も、イミフで速すぎて追いかけれない。一度速度を遅くしてみたのですが、それでもダメでした。アーティストの話し方にも左右されるのかもしれません。

それで、皆さん Dictation はどうしているのだろう?と調べてみました。

 

英語音声の文字起こしにワトソン「Speech to Text」

まずこちら。
Buckethead の貴重な*1肉声インタビューです。病気と戦っているようなことを言っているみたいなのですが、よくわかりません。

www.youtube.com

どうしても内容を知りたいです。

そこで色々調べた結果 IBM のワトソンという人工知能プロジェクトで提供している「Speech to Text」というサービスを試してみることにしました。サイトにアップロードした音声ファイルをテキスト化してくれます。

Speech to Text Demo

これは 

クラウド・プラットフォーム: クラウド・インフラ - IBM Bluemix

というアプリ開発クラウドの1機能で、30日間は無料でお試しできるというものです。 

 

ほかにもアプリを使う音声認識方法として

音声認識にたどり着く - 音声認識ソフトの実力評価と学習能力活用

こちらのサイトでたくさんのアプリを紹介しています。

 

動画をダウンロードする

まず Firefox のアドオン 「Flash Video Downloader 」を使い、動画をダウンロードします。音声だけ取り出すので、一番画質の低いので大丈夫です(例の Invisor で確認した)。

1.スクリーンショット 2017-10-23 19.28.01

 

Evom で音声ファイルに変換

ワトソンの対応音声ファイルフォーマットが「.mp3, .mpeg, .wav, .flac, or .opus 」のみとのことなので、MP3 に変換することにします。

動画ファイルをドラッグ&ドロップするだけで、いくつかのフォーマットに変換してくれる、「Evom」という便利なユーティリティがあります*2。 

2.Evom

 

Evom をインストールしたら、起動して mp4 ファイルをドロップします

3.スクリーンショット 2017-10-24 21.20.18


出力先とフォーマットを指定します。

フォーマットは「MP3」、クオリティは「High」に設定します。これを「Medium」以下にしてしまうと、ワトソンで必要とされる 16KHz を下回るのでエラーとなりうまくテキスト化できません。ワトソン側で入力を 8KHz に下げることもできますが、8KHz は narrow band 用となっていますし、精度の高そうな 16KHz のほうを選びました。

4.スクリーンショット 2017-10-24 21.12.53

変換中

5.スクリーンショット 2017-10-24 21.13.56

MP3 ファイルができたところ

6.スクリーンショット 2017-10-24 21.25.04

余談ですが、Evom は内部で ffmpeg というプログラムを使っています。この ffmpeg はマルチメディアファイルを扱うのに万能で便利なプログラムなのですが、Mac に自分でインストールするのは敷居が高いかもしれません。でも、Evom を入れておけば

/Applications/Evom.app/Contents/MacOS/ffmpeg

として、ffmpeg を使うことができるので便利ですよ。

 FFmpeg - Wikipedia

 

ワトソン「Speech to Text」で英文テキストにする

7.スクリーンショット 2017-10-24 14.55.07

 

  1. 「Detect multiple speakers」をチェックしておくと、しゃべっている人ごとに分けて出力してくれます
  2. 「US English broadband model (16KHz)」を選びます
  3. 「Upload Audio File」をクリックして、mp3ファイルを指定します

mp3ファイルを選んだ次の瞬間から、変換が始まります。すごい精度でびっくりします。インタビュアーとゲストが同時にしゃべっていても、ちゃんと別々に検出してくれるのです。

8.スクリーンショット 2017-10-24 14.57.37


「Word Timings and Alternatives」というタブを見ると、なんだかすごいことになっています。次にどんな単語がくるかの予測とそれぞれの確率が書いてあるのです。人工知能ってこういうことができるんですね。

9

 

さいごに

結果は、すごく満足しています。テキストを読みながら音声を聴くと、私でもなんとなく意味がわかります。単語の意味がわからないときは、その単語の上で「コントロール+コマンド+D」のキーを押すと、Macの辞書がポップアップするので、その場で意味がわかりますし。


今夜も Buckethead のライブを聴きながら眠ることにします。彼の演奏はどこか惹き込まれる魅力があり、聴いても飽きません。

 

*1:彼はなぜかまったくしゃべりません

*2:アプリを使わず「CloudConvert」という Webサービスを使う方法もあります。

Convert to MP3 - mp4 to mp3 - CloudConvert