Amazonの文字起こしサービス(Amazon Transcribe)の利用手順と感想

こんにちは。中島 達(@NakajimaSatoru)です。

日頃から、動画を活用したマーケティングをしているため、

  • 動画を作成する
  • それにテロップを入れる
  • そして、さらにブログにもする

などを行っているのですが、この時にネックになるのが動画の文字起こし。

テロップを入れる際にいちいち全部打ってたら、10分の動画に1時間ぐらい掛かってしまいます…
ブログにする場合でも、やっぱり時間が掛かる…

そのため、日頃からいろんな文字起こしサービスや外注でお願い出来る人にお願いしています。

そんな中、今回Amazonの文字起こしサービス(Amazon Transcribe)を利用する機会がありました。
ただ、実際に使うにあたっては

  • 準備(AWSを契約しないといけない。)
  • 使い方(翻訳がいまいちな部分も…)

など、初めての人にはわかりにくい点もあったので、「使ってみた感想」を含めて、お伝えしたいと思いますので、参考にしてください。

準備編:AWSのアカウント作成とS3の設定

Amazonの文字起こしサービスを利用するためには、

  • AWSと言われるAmazonのクラウドサーバを借りる
  • S3というサービスを契約し、そこに動画や音声データをアップロードする

というのが必要になります。

そのため、準備段階として、AWSのアカウント作成とS3の設定方法を順番に記載します。

AWSアカウントを作成する

以下リンクより、AWSのアカウント作成を行います。
https://aws.amazon.com/jp/register-flow/

作成する上での手順や入力内容の詳細に関しては、このページの下に順番に書いてあるので、こちらを参考にしていただくのが良いと思います。

S3の追加と設定

まずはコンソールにサインイン

地域を[東京]に変更

サービスからS3を選択

バケットを作成するを選択

[バケット名]を入力して次へ

「オプションの設定」はそのまま次へ

「アクセス許可設定」もそのまま次へ

最後に内容を確認してバケット作成

バケットが追加されました。

動画・音声のアップロードとと文字起こしの実施

動画・音声データのアップロード

[バケット名]をクリック

[アップロード]をクリック

[ファイルを追加]をクリック。もしくはファイルをドラッグアンドドロップし、動画、音声のファイルをアップロード

ファイルが選択されたら[アップロード]をクリック
今回はデータを軽くするために、音声データだけにしました。

各ファイルをクリックすると、画面右側にファイルの詳細情報が表示されます。
[コピーパス]をクリックし、コピーしたパスをメモしておきましょう。後で利用します。

文字起こしの実行

[サービス]-[Amazon Transcribe]をクリック

[Transcription jobs]をクリック

[create job]をクリック

以下項目を入力します。

[Name]を適当に英語で設定
[Language]をjapaneseに変更
[Input data]に、先程コピーしたファイル名を入力
その下にあるOutput dataに関しては、「Amazon default」で大丈夫です。

入力が完了したら[Next]をクリック

オプション選択はそのままで[Create]をクリック

文字起こしが始まります。(文字起こし中。)

文字起こしが完了するとStatusがCpmpletaになります。

文字起こしの結果を確認する

[name]をクリック

下にスクロールしていくと翻訳されたプレビューの一部があります。

ページ先頭にある[Download full transcript]をクリックし文字起こし全文のファイルをダウンロード

最後に完了したファイルを削除する

[サービス]-[S3]を選択

ファイルにチェックを入れ、削除を選択

料金に関して

2020年1月16日時点は、料金は以下となっています。

AWS S3

標準のプランとしては、0.025USD/1G(50TBまで)
ただし、新規の場合には、5GBを一年間は無料で利用可能。

料金の詳細は、以下ページを参照下さい。
https://aws.amazon.com/jp/s3/pricing/

文字起こし(Amazon Transcribe)

1ドル110円として計算すると、60分で158.4円。
しかも、初めて利用した時から1年間は、1ヶ月に60分は無料利用が可能。
(これはありがたい!)

料金の詳細は、以下ページを参照下さい。
https://aws.amazon.com/jp/transcribe/pricing/

実際に利用した感想

文字起こしの精度に関して

利用したデータが悪かったのか、いたるところに半角スペースが入ってしまっていました。
そのため、まずテキストエディタ等で置換をしなければいけませんでした。

文字起こしの精度に関しては、感覚値ですが7割ぐらいはうまく文章化されているかな?と。
残り3割部分は手で修正する必要があるのですが、費用対効果を考えるとありだと思います。

その他

以下2点に関しては、非常に良かったです。

  • ダウンロードしたファイルに、喋っている時間の表記もあるため、見直す時に非常にラク
  • 文字起こしが早い。今回の音声は10分弱のものなのですが、文字起こしに約2分程度でした。(長い動画であれば非常に有効ですね)

今回文字起こししたデータに関しては、まだ編集作業中のため、公開しても大丈夫になったタイミングで実際の動画と文字起こしされたテキストなども掲載させて頂きたいと思います。

投稿者プロフィール

中島 達(Nakajima Satoru)
中島 達(Nakajima Satoru)
株式会社Synround 代表取締役

「続ける。 」をコンセプトに、Webマーケティングにおける戦略立案/サイト制作/システム保守/コンテンツ制作を実施。

web、動画は作っただけでは意味が無くて、そこから育てて行く物。ただ、中小企業、小規模税理士事務所では人や費用により続けることが難しいため、続けるための環境作りをしてます。

過去の事業:Webサービス×2、レンタルスペース5店舗

ABOUTこの記事をかいた人

株式会社Synround 代表取締役 「続ける。 」をコンセプトに、Webマーケティングにおける戦略立案/サイト制作/システム保守/コンテンツ制作を実施。 web、動画は作っただけでは意味が無くて、そこから育てて行く物。ただ、中小企業、小規模税理士事務所では人や費用により続けることが難しいため、続けるための環境作りをしてます。 過去の事業:Webサービス×2、レンタルスペース5店舗