AI文字起こし3ツールを同じ音源で比較|Notta・Rimo・無料Whisperの誤字率・話者識別・速度を実測
この記事は に運営者が実際に検証した内容に基づきます。
「録音を文字に起こすの、どれを使えばいいの?」——会議やインタビューの文字起こしツールはたくさんありますが、実際にどれくらい正確なのかを数字で出している記事は意外と少ないです。
そこでこの記事は、機能表を並べるのをやめて、まったく同じ音源を全ツールに投げて、文字誤り率・話者識別・処理速度・誤変換を実際に測りました。比べたのは個人でも使える3つです。
- Notta(クラウド・無料枠あり)
- Rimo Voice(クラウド・無料トライアルあり)
- Whisper(自分のパソコンで動かす・無料)
先に結論(用途別)
- 逐語で正確な議事録がほしい・誰が話したか残したい → Notta(精度が最も安定し、話者の振り分けも正確でした)
- 読みやすく整った議事録にしたい → Rimo Voice(「えーと」などのつなぎ言葉を自動で除いて整形します)
- 無料で済ませたい・録音を外に出したくない → Whisper(自分のPCで動くので音声がネットに出ません。設定の手間はあります)
以下、実測の中身です。
検証の条件(公平にするために)
数字を出す以上、条件をそろえないと比較になりません。
- 検証日: 2026年6月14日
- 音源: 運営者が用意した3パターン。全ツールにまったく同じ音声ファイルを投入。
- 音源A: 1人ナレーション(普通の速さ・雑音なし)=素の精度の基準
- 音源B: 3人の会議(相づち・言い直しを含む)=話者識別と会議向けの検証
- 音源C: 業務用語・略語(KPI)・日付・金額・同音異義語(意外/以外)=誤変換の検証
- 音源はAIの音声合成(TTS)で作成しています。人間の生録音ではありません。理由は、「正解の原稿」が手元にあるため、各ツールの出力とのズレを感覚ではなく文字単位で正確に測れるからです。一方で、合成音声は実際の雑な会議音声より聞き取りやすい傾向があります。ここで出る数字は「クリアな音声での実測値」として読んでください(雑音・なまり・声のかぶりが多い実会議では各ツールとも精度は下がります)。
- 指標: 文字誤り率(CER=間違い+抜け+余計 ÷ 正解の文字数。小さいほど正確)。句読点の打ち方はツールで分かれるため、句読点あり/なしの両方を出しました。前処理(空白・話者ラベルの除去)は全ツールに同じく適用しています。
精度の実測(文字誤り率)
句読点なしのCER(数字が小さいほど正確)。
| 音源 | Notta | Rimo Voice | Whisper |
|---|---|---|---|
| A クリアな朗読 | 0.67% | 2.35% | 3.36% |
| B 3人会議 | 0.93% | 7.87% | 4.17% |
| C 業務用語・数字 | 0.41% | 0.00% | 8.68% |
(参考:句読点ありのCERは A=2.80/4.35/6.21%、B=3.63/11.29/4.84%、C=2.63/2.26/9.40%)
数字だけ見るとNottaが安定して低く、音源CではRimoが誤り0でした。ただし、この表は「そのまま読むと誤解しやすい」ので、中身を分けて説明します。
Whisperの数字が高めに出た理由(数字の表記差)
Whisperは聞き取った数字をアラビア数字で書き出します(「四月十五日」→「4月15日」、「百二十万円」→「120万円」)。今回の正解原稿は漢数字なので、表記が違うだけで「誤り」としてカウントされ、CERが膨らみました。これは聞き間違いではなく書き方の違いです。NottaとRimoは漢数字のまま書き出したため、正解と一致しCERが低く出ています。どちらが正しいというより好みと用途の差です。
Rimoの会議(音源B)が高い理由(つなぎ言葉の除去)
Rimoは「あ、ごめんなさい」「うん」「えーと」といったつなぎ言葉を自動で除いて整形します。逐語の正解と比べると、その分が「抜け」としてカウントされCERが上がります。これは精度が低いのではなく、読みやすい議事録にするための仕様です。逐語の記録がほしいか、整った要点がほしいかで評価が変わります。
実際の誤変換(具体例)
- Whisper: 「用件」→「要件」、「キャンペーン」→「キャンプオン」、「五月」→「札幌」
- Notta: 「五月」→「皐月(さつき)」(1か所)
- Rimo: 「こうすると」→「すると」、一部で語の重複
同音異義語「意外/以外」は、3ツールとも正しく区別できました。
話者識別(誰が話したか)
3人会議の音源Bで、話者の振り分けを見ました。
- Notta: 3人を正しく分離し、発言の割り当ても正確でした(話者1・2・3)。会議の議事録づくりで力を発揮します。
- Rimo Voice: 文字起こしは正確ですが、今回の出力では話者ラベルの自動付与は確認できませんでした(設定や音源条件で変わる可能性があります)。
- Whisper(ローカル版): 話者の分離機能はありません。「誰が話したか」を分けたい場合は別の仕組みが必要です。
処理速度
- Whisper(自分のPC・Apple M4・large-v3モデル): 約58秒の音源を約43秒で処理。実時間より速く終わりました。ただし速度はパソコンの性能で大きく変わります。
- Notta・Rimo(クラウド): アップロード後、おおむね1分前後で完了しました(混雑時は変動します)。
無料でどこまで使えるか
- Notta(無料枠): 月120分まで。ただし1回あたり3分までという制限があります。短い録音には十分ですが、長い会議は途中で区切る必要があります。
- Rimo Voice: 7日間の無料トライアルで機能を試せます(カードを登録しなければ、期間後に自動課金されず止まるだけでした)。継続利用は有料プランです。
- Whisper: 自分のパソコンで動かすのでツールの料金はかかりません(電気代とPCの性能のみ)。「無料で済ませたい人」の最終候補です。ただし導入の手間と、ある程度のPC性能が要ります。
料金・無料枠・プラン内容は各社で変わりやすいため、契約前に各公式サイトで最新の金額をご確認ください(本記事は2026年6月時点)。
プライバシー(音声がどこに行くか)
録音には外に出したくない話が含まれることがあります。
- Whisper(ローカル実行): 音声がインターネットに出ません。パソコンの中だけで処理が完結します。機密性の高い録音を扱う人には分かりやすい利点です。
- Notta・Rimo(クラウド): 音声をサーバーにアップロードして処理します。保存期間や学習利用の扱いは各社の規約で定められているため、扱う内容が機微な場合は契約前に各公式のプライバシーポリシーを確認してください。
まとめ(選び方)
同じ音源で測ってみて、はっきり性格が分かれました。
- Notta … 精度が安定し、話者識別も正確。逐語で正確な議事録を作りたい人に。
- Rimo Voice … つなぎ言葉を除いて整形。読みやすい議事録にしたい人に。
- Whisper … 無料・データが手元から出ない。コストとプライバシーを最優先する人に。
どれも一長一短です。まずは無料枠(またはWhisper)で自分の音声を試すのが、自分に合う1つを見つける近道です。このサイトではChatGPT・Gemini・Claudeの比較など、実際に使って試した検証を続けています。
本記事は2026年6月14日に、運営者が同一音源を各サービスに投入して実測した内容に基づきます。音源はAI音声合成で作成した統制音声です。料金・仕様・無料枠は変更される場合があるため、最新情報は各公式サイトをご確認ください。