【Daily Choppy !】第192回:AWSの文字起こしサービスのAmazon Transcribeを試してみました

Daily Choppy ! アイキャッチ画像2Daily Choppy!

こんにちは。チョッピーです。

本日の記事の内容について

Amazonが提供しているクラウドサービスであるAWSの中に「Amazon Transcribe」という自動で文字起こしを行ってくれるサービスがあります。こちらのサービスは2019年11月21日から日本語の文字起こしにも対応しています。(Amazon Transcribe が、音声のテキスト変換に 7 つの言語を追加

本日たまたま音声ファイルを文字起こしする必要がありましたので「物は試し」とばかりにこのサービスを利用してみました。本日の記事ではその感想を述べていきます。

結論を先に書くと「思ったよりもキチンと文字起こししてくれる。が、利用にはそれなりのITリテラシーが必要。さらに文字起こしの結果は現時点では実用に耐えられる品質ではない様に思われる」です。

なお、こういう「WEBサービス利用してみた」系の記事は画面キャプチャを張り付けて説明するのがお約束です。ただ、AWSでそれをするとAWS側のアップデートが早いため、ものすごい勢いで記事が陳腐化します。それは後の世の混乱の原因になると思うので本記事においては画面キャプチャは貼り付けません。

サービスの使い方の説明も公式サイトのチュートリアルページのリンクを張り付けるだけにとどめます。ご了承ください。

Amazon Transcribe

使い方

AWS公式サイトの以下のページにチュートリアルがあります。こちらをご参照ください。

音声を文字起こしする

感想

非エンジニア向けのサービスとしては敷居が高いのでは?

上述した「使い方」を読んで頂けると分かるのですが「Amazon Transcribe」の利用のためには(2020年1月現在においては)以下のステップが必要です。

  1. AWSアカウントを作成する
  2. S3のバケットを作成する
  3. S3に音声ファイルをアップロードする
  4. Amazon Transcribeのジョブを作成する
  5. 文字起こしを実行する

すでにAWSを利用している人にとっては非常に簡単に利用できる種類のサービスだと思うのですが「AWSってなぁに?」な方々にとっては敷居が高いのではないかと思われます。

AWSはこのサービスのユースケースのひとつに

Amazon Transcribe を使用することで、コンテンツプロデューサーやメディア配信者は、タイムスタンプ付きの字幕を自動生成して動画コンテンツに表示し、コンテンツのリーチ拡大やアクセシビリティ向上を実現することができます。

Amazon Transcribe|AWS

と記載しているのでユーザ層として「コンテンツプロデューサー」や「メディア配信者」も想定されている様なのですが、対象ユーザがこのサービスを利用するためには利用者側で「Amazon Transcribeを組み込んだシステムを構築する」などの工夫が必要となりそうです。(もちろんAWSを利用できる「コンテンツプロデューサー」や「メディア配信者」にはその様な工夫は不要だと思います)

文字起こし結果の品質は満足には程遠い

日本語の文字起こしって「同音異義語」があるためハードルが高いと思います。「Amazon Transcribe」においても言葉の聞き取り自体は結構な精度で実施してくれるのですが、漢字変換が残念な結果になっています。一例を挙げると以下の様な。

正) 「…という意味でね、感謝祭ですね」
誤)「…という意味で年間車載ですね」

年間車載…。これはあくまで一例ですが、こういう誤変換が大量にあります。

おそらく現在の「Amazon Transcribe」の文字起こし結果はそのままだと使い物にならないので、それを音声データを聞きながら修正していく作業が必要になります。

その時間と労力を考えると、最初から全て手動で文字起こしを行った方が早いのではないかと思います。「Amazon Transcribe」の文字起こし処理にも音声ファイルと同程度の時間が必要でしたし。

本日の締め

今回の記事執筆時点では「Amazon Transcribe」の文字起こし結果は実用には程遠い品質だと感じました。

ただ、AWSは改善スピードが恐ろしく早いので、近い将来には「文字起こしは全てAmazon Transcribeに任せれば大丈夫な世界」が実現するかもしれません。個人的には非常に期待しています。

本日もふらとぴにお越し頂きありがとうございます。

しかし、音声認識ってスゴいですよね…。人間の声って人によって高さや声色や速さが全然違うのに、よく色々な人の言葉を単一の文字に変換できますよね。人それぞれの誤差を吸収して文字に変換してるって事ですよね…。おそらく裏側のロジックにはディープラーニングが使われているのでしょうけど…。ただ、同音異義語が存在する以上、それを正確に判断するためには「文脈を理解する」事が必要になるハズなので、たぶん、現在の技術だと同音異義語の完璧な判別は難しいのだとは思いますが…。(素人の想像なので間違っていたらスミマセン)

タイトルとURLをコピーしました