こんにちは、このブログでは自動文字起こしの比較ついて書いていく。
zoomの自動文字起こし機能と無料で使える文字起こしのソフトを比較していく。
今回はNotta(無料版)、Whisper、Vrew(無料版)の3つのソフトとzoomの比較を行う。
Nottaとは会議やインタビュー、録音済みの音声ファイルをAIが自動で文字起こししてくれるクラウド型ツールである[1]。
無料版では月120分の制限がある。
WhisperとはOpenAIが開発・公開している無料の音声認識モデルである[2]。
Vrewとはセリフを自動文字起こししてくれる機能や、タイトルだけで動画編集をしたり、テキストや人の声をAIの音声に変換できたり翻訳機能まである、簡単な操作とAIを活用して動画編集ができるソフトである[3]。
月に120分音声分析が行えます。
zoom,Notta,Whisper,Vrewの比較を行っていく。
やり方としてはzoomで初めに録画をし、そのデータをほかのソフトでも使っていく。
音声の台本としてはchatGPTに作成してもらった図1を使用する。
図1音声台本
実際の音声は以下のもの
zoomの結果は図2のようになった。
図2zoom結果
nottaの結果は図3のようになった。
図3notta結果
Whisperの結果は図4のようになった。
図4Whisper結果
vrewの結果は図5のようになった
図5vrew結果
冒頭あいさつでは、Whisperは漢字の誤変換あり。zoomとNottaとVrewは正確である。
数字読み上げでは、数値自体の間違いはなくzoomではすべて算用数字のみで表記、nottaは漢数字で表記、whisperとvrewは1億2000万人などの表記がされていて違いがあった。
固有名詞では、nottaとvrewはチャットGPTなど英語表記がカタカナになっていたりするが正確である。一方zoomは小文字が混在していたり、ピリオドが途中に挟まっていたりと一部崩れている。また、whisperでは子有名詞、「選手東京都市部役の宮舌バークなど誤変換が多い。
早口言葉では、zoomとvrewとnottaは書き食うや紙が髪となっていたりするがほぼほぼ正確である。Whisperは「生むぎ生ごめん生たまご 青巻きがめ赤巻きがめき巻きがめ」このようになっており大幅に崩れている。
同音異義語では、nottaは海技以外は区別できていた。ほかは海技以外に橋と箸と端を区別できていない
外来語・カタカナ語では、nottaaとvrewはアルファベットで表記されており他も正確。zoomはyoutubeなどをカタカナで表記。whisperはバソコンやブルーツースイアホンなど誤認が多かった。
以上の結果から、無料で使える自動文字起こしソフトではnottaもしくはvrewが優秀であるといえる。
それぞれに強みや弱みとしては
nottaは固有名詞や同音異義語の認識精度が高く、誤変換が少ない。リアルタイム文字起こしとファイルアップロードの両方が可能だが無料枠は月120分までと少なく、長時間の会議や講義では有料化が必要。
vrewは早口や外来語の認識に強く、動画字幕作成にも適している。スピーチや研修映像の文字起こしと字幕付けが同時に行える。同音異義語の変換はあまりできていなかった。
zoomでは会議中のリアルタイム字幕表示が可能。台本でアルファベット表記のもを読み上げた時カタカナで表記されるなどの表記ゆれがあった。
Whisperでは無料で長時間音声を処理できるという強みがあるが、baseモデルを使用したときの制度は今回のようにあまり高くない。
今回の実験全体を簡単にまとめると、同じ音声サンプルを使って複数の文字起こしソフト(Zoom、Notta、Whisper、Vrew)の精度を比較した結果、それぞれに特徴的な強みと弱みが見られた。
用途や予算、後処理の手間を考慮し、状況に応じて使い分けることが重要だと分かった。