音声認識技術は、特に日本語において、さまざまなプラットフォームで異なる精度を示します。ここでは、Google Chromeの拡張機能「Voice In」と、Macの純正音声認識機能の日本語音声認識精度の違いについて詳しく説明します。
Voice Inの特徴と精度
「Voice In」は、Google Chrome上で動作する音声入力拡張機能であり、日本語を含む50以上の言語に対応しています。この拡張機能は、Googleの音声認識エンジンを使用しており、非常に高い認識精度を誇ります。特に、GmailやGoogle Docs、YouTube、Slackなど、さまざまなウェブサイトでリアルタイムに音声入力が可能です[2][9][12]。
- 精度: Voice Inは、スマホ版のGoogle音声入力と同等の精度を持ち、特に日本語の認識においても高い評価を受けています。ユーザーからは、音声入力の精度が高く、後からの編集が容易であるとの声が多く寄せられています[6][9][12]。
使い方:
- Google Chromeのウェブストアから「Voice In」をインストールします。
- 拡張機能をピン留めし、ブラウザ上部に表示させます。
- 音声入力したいテキストボックスで、以下のいずれかの方法で「Voice In」を起動します:
- 拡張機能のアイコンをクリック。
- テキストボックスで右クリックし、「Start dictation」を選択。
- ショートカットキー(Windows:
Alt + L
、Mac:Option + L
)を使用。
- 音声入力を開始し、終了したら再度アイコンをクリックするか、ショートカットキーを押して停止します。
無料版でも多くの機能を利用できますが、有料版ではさらに以下の機能が追加されます:
- カスタム音声コマンド: 固有名詞や専門用語を登録し、認識精度を向上させることができます。
- 対応サイトの拡大: 無料版で使用できないサイトでも音声入力が可能になります。
有料版の価格は月額9ドル、年額4.99ドル、一生買い切りプランが149ドルとなっています。
Voice Inの使い方に関しては、こちらの記事でも記載しています。
Macの純正音声認識機能の特徴と精度
一方、Macの純正音声認識機能は、macOSに組み込まれている音声入力システムです。この機能も日本語に対応していますが、精度に関してはVoice Inに劣るとされています。特に、固有名詞や複雑な文章の認識においては、誤認識が発生しやすいという欠点があります[1][3][8][11]。
- 精度: Macの音声入力は、基本的な文章や単語の認識には十分な精度を持っていますが、特にブランド名やサービス名などの固有名詞が含まれる場合、正確に書き起こすことが難しいことがあります。また、音声入力中に誤認識が生じると、修正が必要になることが多く、結果的に作業効率が低下する可能性があります[1][3][8].
設定方法:
- システム設定の「キーボード」から「音声入力」をオンにします。
- 言語を日本語に設定し、マイクの入力元を選択します。
- 呼び出し方法を設定します(キーボードのマイクボタンを推奨)。
- 「自動句読点」をオンにすると、句読点の入力が自動化されます。
インタビューAIの活用
音声認識技術を活用したツールとして、インタビューAIがあります。このツールは、音声データを迅速に文字起こしし、自然なインタビュー形式の文章に自動変換する機能を備えています。
主な特徴:
- 高速な文字起こし: 1時間の音声を約15秒で文字起こし可能。
- 自動フォーマット: 会話の文脈を理解し、自然なインタビュー形式に自動修正。
- 要約機能: 長文のテキストを効率的に要約し、指定した文字数にまとめる。
- タイトル・見出し生成: 記事に適したタイトルや見出しを自動生成。
これらの機能により、インタビューや会議の記録作成が大幅に効率化され、ライターやジャーナリストにとって強力なサポートツールとなります。
比較まとめ
Voice In:
- 高い認識精度(特に日本語)
- 多くのウェブサイトでの使用が可能
- 編集が容易で、ユーザーからの評価が高い
Mac純正音声認識:
- 基本的な文章には対応しているが、固有名詞や複雑な文章での精度が低い
- 誤認識が多く、修正が必要になることがある
このように、Voice Inは特に日本語の音声認識において高い精度を持ち、実用性が高い一方で、Macの純正音声認識機能は特定の条件下で精度が低下する傾向があります。音声入力を多用する場合は、Voice Inの使用を検討する価値があるでしょう。
[1] https://notai.jp/mac-whisper-gpt4-dictation/
[2] https://www.teradas.jp/archives/35715/
[3] https://news.ycombinator.com/item?id=37238489
[4] https://sites.google.com/site/casualconc/other-applications/casualtranscriber/how-to-use-voice-recognition
[5] https://note.com/tsuzuki817/n/n09371ba2ed40
[6] https://note.com/kazu098/n/n7997caf87b8a
[7] https://qiita.com/yamashee/items/bc69b5d15acdc5d23ee8
[8] https://k-tai.watch.impress.co.jp/docs/column/stapaapple/1331303.html
[9] https://www.notta.ai/blog/voice-in-chrome-extension
[10] https://global.honda/en/voice-control-system/ja-top/faq.html
[11] https://support.apple.com/ja-jp/guide/mac-help/mh40584/mac
[12] https://takeofujii.net/voice-in/
[13] https://note.com/enspire/n/n19b14277fb30
[14] https://mojiokoshi3.com/ja/post/speech-to-text-for-mac/
[15] https://yokotashurin.com/etc/voice-in.html
[16] https://support.apple.com/ja-jp/102225
[17] https://pc.watch.impress.co.jp/docs/column/macinfo/1550163.html
[18] https://www.smartshoki.com/blog/mojiokosi/mac-transcription/
[19] https://forest.watch.impress.co.jp/library/software/voicein/
[20] https://qiita.com/shu223/items/ca8e62803e83e396c177
[21] https://simamune.hateblo.jp/entry/mac_2
[22] https://www.reddit.com/r/macapps/comments/1e8617d/best_app_free_for_speech_to_text/
[23] https://chromewebstore.google.com/detail/voice-in-%E9%9F%B3%E5%A3%B0%E3%81%8B%E3%82%89%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E3%81%B8%E3%81%AE%E3%83%87%E3%82%A3%E3%82%AF%E3%83%86%E3%83%BC%E3%82%B7/pjnefijmagpdjfhhkpljicbbpicelgko?hl=ja
[24] https://support.apple.com/ja-jp/guide/iphone/iph2c0651d2/ios
[25] https://nakamayu2.com/voicein/
[26] https://my-best.com/4901
[27] https://discussions.apple.com/thread/7060642
[28] https://apps.apple.com/us/app/speeche-voice-dictation/id1527208975
[29] https://medium.com/@kolbeuk/prototyping-open-source-speech-recognition-and-translation-ca571b3c4293
[30] https://stackoverflow.com/questions/12557