音声認識を使ってAdobe Premiere Proの動画テロップを光速で作成する方法

2020年9月10日公開 / 株式会社ICS 加賀篤史

動画を作るときに、テロップや字幕をつけることがあると思います。音声に視覚情報を加えることで情報の伝達力を強くしたり緩急をつけたり、また電車の中や音が出せない場所での視聴や、難聴の方への配慮にもなります。

しかし、音声を聞いてテキスト入力を何度も繰り返して・・・とても時間がかかりますし、楽しい作業でもありません。そこで今回は、音声の文字起こしソフトを使って、さくっとテロップや字幕作成の方法を紹介します。

こちらが作成する動画イメージです。この手法はFinal Cut Proでも適用できますが、今回はAdobe Premiere Pro向けに説明します。

Vrewを使って文字起こし

VrewのWebサイトのスクリーンショット

Vrewは人工知能を活用した動画編集プログラムです。一般的なタイムラインを用いた動画編集とは異なり、文字起こしされた音声を元に、文章を編集するように動画を作成できるのが特徴です。ユーザー登録をすれば無料で利用でき、主だった機能はWeb上で試すこともできます。

音声認識や自然言語処理にはGoogle Cloud Speech-to-Text APIが利用されており、精度の高い文字起こしが可能です（今回サンプルで作成した動画では、100%の精度で文字起こしされました）。今回は動画編集ではなく、テロップ作成のために使用します。

音声解析をする

データ読み込み手順

「新しい動画で始める」から動画ファイル（mp4かmov形式）を読み込むと、自動的に音声解析が行われます。音声解析が終わると文章に合わせて自動的にカット割がされ、解析された音声がテキスト表示されます。

私は先にAdobe Premiere Proでカット編集を行った後、書き出した動画をVrewで音声解析するようにしています。ちなみに音声解析にかかる時間ですが、私の環境では10分の動画でも1分ほどで完了しました。

テロップを整形する

Vrewの編集画面の解説

解析されたテキストが2行ずつ表示されます。上が解析した音声でタイムラインの役割となっており、下が実際に表示するテロップのテキストになっています。カット割を編集したい場合は上の文章を、表示するテロップを編集したい場合は下の文章を編集します。[・・]の部分は無音声の箇所を示しています。不要な無音分をカットしたり、一律調整もできます。

Vrew上でテロップのデザイン編集も可能ですが、今回はAdobe Premiere Proで行いたいので省略します。

データを書き出す

ファイル書き出し手順

テロップの編集が終わったら、データを書き出します。形式がいくつかありますが、今回はAdobe Premiere Proで再編集したいので「Premiere Pro xml」を選択して書き出します。

Adobe Premiere Proで仕上げる

ここからはAdobe Premiere Proで作業します。「ファイル > 読み込み」から書き出したXMLファイルを読み込みます。「プロジェクト」に2つのデータが追加されるので、シーケンスデータのアイコンをダブルクリックして開きます。するとVrewで編集した動画のタイムラインが表示されます。

テロップデータの読み込み手順

テロップはエッセンシャルグラフィックスで作成されているので、まとめて選択して元のライムラインにコピー&ペーストします。メインタイムラインにペーストされてしまうので、位置を終点にしてからペーストするとよいでしょう。

デザインと位置の調整

テロップのフォントや色などの変更は、「エッセンシャルグラフィックスウィンドウ」で行います。テキストを1つ選択して、好きなデザインに編集します。その後「マスターテキストスタイル」を作成します。作成すると「プロジェクト」に追加されるので、テロップのクリップをすべて選択しドラッグ＆ドロップすると、作成したテキストスタイルが適用できます。

テロップデザイン調整の手順

テキストの位置調整は「エフェクトコントロールウィンドウ」で行います。「モーション」を選択して数値を変更するか、もしくはテキストをドラッグして位置を調整します。「モーション」を選択したまま「コピー」して、他のクリップをまとめて選択して「ペースト」ですべてに適応します。

テキスト位置調整の手順

これでテロップは完成です。さらに今回は、クローズドキャプションも付けてみましょう。

クローズドキャプション（字幕）を設定する

YouTubeの字幕のスクリーンショット

クローズドキャプション（字幕）は視聴者側の設定で表示・非表示を切り替えられる字幕です。たとえば、YouTubeでは音声認識技術で自動的にキャプションが生成され、翻訳もされる点がテロップと大きく異なります。しかし、動画によっては誤字が多くなり翻訳も不完全なものとなります。そこで、正確なキャプションになるよう設定します。

キャプションのデータも簡単に作成できます。Vrewからデータを書き出す際に、「字幕ファイル」を選択するだけでSubRipファイル（拡張子は.srt）が作成されます。SubRipファイルは広く使われている字幕データの形式で、テキストだけでなくタイムコードも含まれています。

データ書き出しの手順