Google Colaboratory＆Whisperで文字起こしする方法

Google Colaboratory

2025.02.25

この記事は約3分で読めます。

音声や動画の文字起こしは、ビジネスや学術研究、コンテンツ制作など様々な場面で重要です。注目したいのが、Google ColaboratoryとOpenAIのWhisperを組み合わせた無料で高精度な文字起こし方法を試してみます。

Google Colaboratoryの設定

Google Colaboratory（通称Colab）にアクセスし、新しいノートブックを作成します。

ランタイムのタイプをGPUに変更します。これにより処理速度が向上します。

Colabのセルに以下のコードを入力し実行します。

!pip install git+https://github.com/openai/whisper.git
import whisper

以下のコードでWhisperの大規模モデルをロードします。

model = whisper.load_model('large')

もし処理が重たかったり時間がかかる場合は、他のモデルを検討しましょう。

Whisperには’large’モデル以外にも複数のモデルが用意されています。主なモデルは以下の通りです。

各モデルは多言語対応版と英語限定版があり、必要なGPUメモリや処理速度が異なります。

モデルの選択は、求める精度と利用可能なコンピューティングリソースのバランスを考慮して行うことがポイントです。

アップロードした音声ファイルの文字起こしを行います。

result = model.transcribe('your_audio_file.mp3')
print(result['text'])

実行した結果がプリントで出力されました。

テキストを貼り付けた状態です。

なかなか正確な感じで日本語化されていることが分かります。漢字やカタカナもかなり精度が高いように見えます。

日本語の文字起こしを行う場合、以下のように言語を指定すると精度が向上します。

result = model.transcribe('your_audio_file.mp3', language='ja')

Whisperには自動翻訳機能も搭載されています。

以下のコードで英語に翻訳できます。

result = model.transcribe('your_audio_file.mp3', task='translate')

あとは、設定次第でGoogleドライブに自動保存するようなこともできます。続きはまた。

Google ColaboratoryとWhisperを使用することで、無料で高精度な文字起こしが可能になります。この方法は多言語対応できる点もよいです。

ご参考ください。