英語を共通言語にさまざまな国の人々と話をしていると、各言語が持つ特有の「訛り」や「言い回し」に引きずられ、英語にもその「クセ」を感じることが多々あります。
しかし、優れた音声認識ソフト(ディクテーションソフト)を開発するためには、こうした各々の「言語のクセ」に対応することは必要不可欠。だからこそ難しさが伴います。
高音質マイクに定評のあるMacBookですが、MacBook Airには3つ、MacBook Proには4つのマイクが搭載されています。特に、余計なノイズを取り除きながら良質な音を届けてくれるProのマイクは、Appleも「スタジオ使用可能レベル」と謳うほど。では、そんなMacに適した音声認識ソフトとは?
今回はMacOSに焦点を絞り、VoicePingがおすすめする音声認識ソフトを4選ご紹介します。
音声認識ソフトのユーザー層って?
音声認識ソフトのユーザー層としてまず挙げられるのは、「学生や研究関係者」です。音声から直接文字起こしすることで、学習・研究作業時間の大幅カットにつながります。
また、「身体障害」などを抱え、思うように文字を打つことができない人々や、タイピングに時間を要する「テクノロジーを苦手とする人々や高齢者層」にとっても、効率的にテキスト化してくれる音声認識ソフトが持つ意味は大きいと言えそうです。
音声認識ソフト、質を見分けるポイントは?
1:正確性
特に情報の正確性を重視する学術関係者や専門家にとって、テキスト化された情報が正しいかどうかは一番の判断基準かもしれません。逆に、一般的な会話や文書出力などを目的に使うのであれば、さほど気にする必要はないでしょう。
2:出力スピード
正確性に次いでチェックしたいポイントは、音声が認識されテキスト化されるまでの速さです。ただ、音声認識ソフトの出力機能は話の文脈内容にもよるため、「文書全体を聞いてから変換する」のか、それとも「正確性が落ちてでも、スピードを重視し聞き取りながら変換する」のか―。「正確性」または「スピード」のどちらかを優先することになります。
3: バックグラウンドタスクとしての使用に優れているか
バッテリーや計算資源を大量消費するようなバックグラウンドタスクでは、使いものになりません。クラウド上のディクテーションソフトを使えば、こうしたリソースをほとんど消耗することなくパフォーマンスが可能。逆にローカルソフトはバッテリーなどを消耗してしまいます。
4: 文字起こしされた情報の見やすさ・わかりやすさ
テキスト化される際、「タイムスタンプ機能」で自動改行してくれるのか、それともただ単に文字起こしされるだけなのか。議事録など分単位の記録をしなければならない場合、文字起こしに多少の時間がかかったとしても、前者のような機能を備えたソフトの方がはるかに便利ですよね。
5: 他言語への自動翻訳
英語が主言語のユーザー層にとってはさほど大きなポイントではないかもしれませんが、さまざまな国籍が混在する多文化チームにとって、「自動翻訳機能」は「リアルタイム文字起こし機能」に並び重要度が高いもの。こうした機能があるかどうかで、参加メンバーが「会議の一員だ」と実感できるかどうかが大きく左右されてしまいます。
6: デスクトップアプリとして優れたインターフェース
多くの競合がひしめき合う市場において、ユーザーインターフェースは他社のソリューションサービスと差別化を図る重要なカギ。ユーザーも、ここに違いを見出すことでサービスの違いを実感できるでしょう。
おすすめ音声認識ソフト4選
VoicePing
Appleディクテーション
Googleドキュメント
Speechnotes
1. VoicePing
バーチャルオフィスの悩みを一気に解決してくれるオールインワンソリューション、「VoicePing」。特に、高精度の「リアルタイム文字起こし機能」や「翻訳機能」は、自身も多国籍チームで動くVoicePingならではの強みです。
VoicePingでは、チームメンバーがともにバーチャルルームに入り、通話(音声のみ、または音声+ビデオ)が可能。そこで発言された言葉は、リアルタイムでテキスト化されます。プレミアムユーザーには「リアルタイム翻訳」オプションも付いており、地理的に離れたメンバーも「チームの一員」という一体感を得ることができます。
数カ月かけて選び出された良質エンジンを使用していることもあり、VoicePingの文字起こしテキストの正確さは抜群。テキスト化されたあとで、「内容が正しいかどうか」を確認する必要がなく、手間や時間を省けます。
テキスト化はすべてリアルタイムで行われ、必要があればslackとの同期も可能。ユーザーは、本当の意味で 「リアルタイム 」を体感できるはずです。
英語を母語としない人々のため、翻訳機能も搭載しています。テキスト変換や翻訳がリアルタイムで行われることで、参加者は「会議の一員だ」という臨場感を得られるのです。
VoicePingはバックグラウンドで使用することを前提として作られているため、アプリがドックに待機中もリソースをほぼ消費しないよう設計されています。こうすることで、他機能のひとつタイムトラッカーにも影響を与えません。このタイムトラッキング機能は、フリーランスやタスクワーカーの労働時間なども記録でき、さまざまな情報をひとつのシステム内で管理するのにぴったりです。
テキストは、読者に読みやすく。出力されたテキストが、アプリだけでなくslack上にもタイムスタンプ付きで記録されるというのもうれしいポイントです。
ユーザーインターフェースもわかりやすく、タスクはほぼすべて2~3回のクリックで実行できてしまいます。
2. Appleディクテーション
Macユーザーにとって選択肢のひとつと言えるのが、Apple製品に搭載される「Appleディクテーション」。ところが私たちが試してみたところ、動画のとおり、精度基準は95%にも満たないことがわかりました。テキスト化された情報はあまり正確とは言えず、言語の「訛り」や「クセ」によっては、精度の高いテキスト化は難しいと言えそうです。
Appleディクテーションは、iOSデバイスの場合はオンスクリーンキーボードから、MacOSデバイスの場合はキーボードショートカットから直接アクセスが可能。すでにインストールされているため設定などの必要はなく、ソフトウェアを起動し話し始めるだけで手軽に使えます。
ただし、一度に入力できる時間は短いため、長文や会議の議事録などには向きません。
「あまり使う機会がない」、または単に「無料のソフトがほしい」というユーザー向けのソフトと言えそうです。
3.Googleドキュメント
同じく無料の「Googleドキュメント」も、この動画のとおり、さまざまなニーズに対応した理想的なツール…とは言い難いかもしれません。
音声認識精度はお世辞にも高いとは言えず、「日本語訛りの英語」を音声入力してみると、多くの単語を拾い損ねてしまうという結果に。
Googleによると、下記の手順を踏むことで音声入力機能の有効性を高められるようです。
- マイクが動作することを確認する。
- ChromeブラウザでGoogleドキュメントの文書を開く。
- 「ツール(Tools)」から「音声入力(Voice typing)」を選択。マイクボックスが表示される。
- 話す準備ができたらマイクをクリック。
- 通常の音量と速度ではっきり話す。(句読点の使い方については下記を参照。)
- 完了したらもう一度マイクをクリック。
音声読み上げ機能こそないものの、音声コマンド自体は楽しい!ドキュメント形式を整えたり、編集を行うなど、文字通りあなたの声でドキュメントを操作することができます。
4. Speechnotes
Speechnotesは、これまで紹介してきた他のアプリとは異なり、(Appleのエコシステムに限らず)プラットフォームを問わず操作できる包括的なソフトです。
クロームのプラグインも用意されているので、さらに汎用性が高くなっています。
他のアプリ同様、精度を試す独自のテストを行ってみたところ、発言はほぼすべて漏れることなく拾われ、正確性も比較的高いと言えそうです。ただしいくつか注意点も。
まず、タイムスタンプ機能はありません。会議の議事録を記録する場合や、公式性の高い場での記録には不向きと言えそう。また、フォーマットは整っておらず、単に音声がテキスト化されるだけにとどまります。そのため、書式を整えるのにけっきょく時間を割くことに。
こうした点が許容できるのであれば、Speechinotesはおすすめ度が高いソフトです。
VoicePingは多様なビジネスシーンに対応
総合的に評価してみても、おすすめなのはVoicePing。さまざまな言語の訛りに対応できるだけでなく、ビジネスシーンに必要とされる機能を完備しています。
現在、サービスにお申込みの先着30社様に、エンタープライズグレードプランを無料提供のキャンペーンを実施中です。VoicePing、ぜひ一度お試しを!