これまでは精度に不安があったAI(人工知能)による自動文字起こしサービスが今、大きく進化している。例えばRimoが提供する文字起こしサービス「Rimo Voice」は、60分の音声を5分でテキスト化。その精度もなかなかのものだ。このほかにも、使える文字起こしサービスは多数登場している。AERA 2020年11月30日号では、その機能に迫った。
※【「ついに使えるものが…」テレワーク拡大で「AI文字起こしサービス」が劇的進化】より続く
* * *
Rimoと同じく個人が手軽に使えるサービスとして注目なのはSloos(スルース)とAI GIJIROKU。Rimoが録音した音声を読み込む(インポート)のが基本であるのに対し、Sloosはリアルタイムでの即時起こしがメインだ。
こちらも静かな環境ではっきりと話すと、認識精度は高かった。発話を話者ごとに識別し、チャット形式で表示してくれるので読みやすい。話者の声の登録は会話の前でも後でも可能。「深層学習(ディープラーニング)より必要な演算能力が少なくて済む『レザバーコンピューティング』を応用した独自のアルゴリズムを使っているため」(Sloosを提供するクアンタムコアの寺嶋毅・事業開発マネージャー)だという。
個人なら月800円、法人は2千円と今回取り上げる中で断トツに安い。しかも時間は無制限、使いたい放題だ。同様のサービスの多くは、音声・テキストの保存が可能だが、Sloosはテキストをダウンロード後は、両方のデータが削除される。音声の保存が必要なら収録しておく必要があるが、セキュリティーに気を使う大企業からは引きが強いという。
AI GIJIROKUは、リアルタイム、インポート双方に対応している。最大の強みはパーソナライズ機能だ。話者の音声データを機械学習の素材とすることで精度を向上させ、さらにユーザーのSNSとの連携により、頻繁に使われる単語を認識しやすくするという。
「AIが『この人ならこう言っているだろう』と推測する。専門用語や、自分の会社や部署でのみ使われる特異な単語がある場合、パーソナライズがあるとないとでは大違いです」(AI GIJIROKUを提供するオルツの米倉千貴社長)