許多自己メディアを運営する友達たちは、自分の動画に字幕ファイルを作成する方法について困っているかもしれません。最初の頃、友達の中には聞き取りをして字幕を作成する人もいましたが、後にOpen AIは彼らのWhisper言語モデルをオープンソースで提供しました。これは非常に効率的に動作しますが、一部の友達にとってはPythonのコマンドを理解する必要があり、これは学習のハードルとなる可能性があります。
そこで、熱心なエンジニアのKonstantinは新しいオープンソースプロジェクトであるWhisper Desktopを作成しました。Whisper Desktopを使用すると、ユーザーはもはやPythonのコマンドを理解する必要はありません。代わりに、使いやすいGUIインターフェースを通じて、簡単に動画の字幕ファイルを出力することができるのです!
Whisper Desktop(ウィスパー デスクトップ)の簡単な紹介
| プロジェクト名前 | Whisper Desktop |
|---|---|
| 用途 | 動画の字幕ファイルをワンクリックで自動生成 |
| 料金 | 無料 |
| プロジェクトウェブサイト | https://github.com/Const-me/Whisper |
| ソフトウェアダウンロードアドレス | https://github.com/Const-me/Whisper/releases |
| 言語モデルダウンロードアドレス | https://huggingface.co/ggerganov/whisper.cpp/tree/main |
Whisper Desktop インストールガイド
ステップ1 | Whisper Desktopソフトウェアの圧縮ファイルをダウンロード
1.最初に、ソフトウェアの公開ページを開きます。ここでは、ソフトウェアのさまざまな公開バージョンのダウンロードリソースが表示されます。通常、最新のバージョンを選択してダウンロードします。最新のバージョンを見つけたら、「WhisperDesktop.zip」をクリックしてダウンロードします。

2.ダウンロードが完了したら、それを解凍します。すると、以下の内容が表示されます。

ステップ2 | Whisper言語モデルをダウンロード
1.まず、Whisper開発ウェブページにアクセスして、どの仕様のモデルが私たちに適しているかを理解します。このページでは、次のような表を見つけることができます。

Boosterは、この表を以下のように整理して、私たちが必要とするモデルの仕様をより理解しやすくしました。
| サイズ | トレーニングパラメータ | 英語のみサポート | 多言語サポート | 必要なGPUメモリ容量 | 字幕ファイル出力速度 |
|---|---|---|---|---|---|
| tiny(超小) | 3900万 | tiny.en | tiny | 約1GB | 超高速 |
| base(ベース) | 7400万 | base.en | base | 約1GB | 高速 |
| small(小規模) | 2億4400万 | small.en | small | 約2GB | まあまあ速い |
| medium(中規模) | 7億6900万 | medium.en | medium | 約5GB | 遅い |
| large(大規模) | 15億5500万 | 提供されていない | large | 約10GB | 超遅い |
ここでは、Boosterは【必要なGPUメモリ容量】に従って選択することをお勧めします。例えば、コンピュータのGPUメモリが8GBの場合、mediumを選択できます。16GBの場合はlargeを選択できます。
2.仕様を決めたら、モデルのダウンロードページにアクセスしてモデルをダウンロードします。例えば、mediumサイズで多言語サポートのモデルを使用したい場合、【ggml-medium.bin】を探し、【右側のアイコン】をクリックしてダウンロードします。

3.ダウンロードが完了したら、利便性のためにモデルファイルをWhisperDesktopのフォルダに配置できます。以下の図をご参照ください。

ステップ3 | WhisperDesktopを開き、言語モデルをロード
1.【マウス左ボタンをダブルクリックしてWhisperDesktopを起動】してください。

2.初回起動時、プログラムは言語モデルのパスを提供するよう求められます。その際、【Model Path】で先ほどダウンロードしたモデルファイルを選択してください。【Model Implementation】の部分では、デフォルトの【GPU】を使用します。設定が完了したら【OK】ボタンをクリックしてください。これですべてのインストール設定が完了しました!

Whisper Desktop 操作ガイド
操作例1 | 通常の動画字幕生成
1.前のインストール設定を完了した後、以下の画面が表示されます。順番に、動画の言語【Language】、字幕を生成する動画ファイル【Transcribe File】、生成される字幕ファイルの形式【Output Format】を選択します。字幕ファイルの形式では、【SubRip subtitle】を選択することをお勧めします。これは標準の字幕ファイル形式で、さまざまな動画ソフトウェアやYouTubeで互換性があります。次に、【Place that file to the input folder】オプションにチェックを入れます。これにより、字幕ファイルが動画ファイルと同じフォルダに直接配置されます。最後に、【Transcribe】ボタンをクリックします。

2.【Transcribe】ボタンをクリックすると、進行状況バーが表示される画面が表示されます。しばらくお待ちください…

3.進行状況バーが完了すると、【Transcribe Completed】ウィンドウが表示されます。これにより、字幕ファイルの出力が完了したことが示されます。

4.実際に出力された字幕ファイルを開くと、ほとんど変換エラーがないことがわかります。素晴らしいですね!

操作例2 | 動画をまず英語字幕に翻訳してから生成
実際には、Whisper Desktopは通常の字幕ファイルの出力だけでなく、動画を英語の字幕に翻訳してから出力する機能もサポートしています。試してみましょう!
1.プログラムのインターフェースの右上には、【Translate】オプションが表示されます。これにチェックを入れます。その後、【Transcribe】ボタンをクリックします。

2.出力が完了した後、字幕ファイルを開きます。Boosterでは、元の字幕と英語に翻訳された字幕を同時に開きます。どうですか?翻訳の品質は満足できましたか?素晴らしいですね!

まとめ
Whisper Desktopを通じて、簡単に動画の字幕ファイルを生成し、内蔵の翻訳機能を使用して字幕を英語に変換して出力することができます。これは一部のメディアクリエイターにとって非常に便利なツールです。動画の字幕ファイルを作成する必要がある方は、ぜひ試してみてください。


