議事録はAIにお任せ？　方言に対応、“同時通訳”も…進化した自動文字起こしサービス

　これまでは精度に不安があったAI（人工知能）による自動文字起こしサービスが今、大きく進化している。例えばRimoが提供する文字起こしサービス「Rimo Voice」は、60分の音声を5分でテキスト化。その精度もなかなかのものだ。このほかにも、使える文字起こしサービスは多数登場している。AERA 2020年11月30日号では、その機能に迫った。

※【「ついに使えるものが…」テレワーク拡大で「AI文字起こしサービス」が劇的進化】より続く

＊　　＊　　＊

　Rimoと同じく個人が手軽に使えるサービスとして注目なのはSloos（スルース）とAI GIJIROKU。Rimoが録音した音声を読み込む（インポート）のが基本であるのに対し、Sloosはリアルタイムでの即時起こしがメインだ。

　こちらも静かな環境ではっきりと話すと、認識精度は高かった。発話を話者ごとに識別し、チャット形式で表示してくれるので読みやすい。話者の声の登録は会話の前でも後でも可能。「深層学習（ディープラーニング）より必要な演算能力が少なくて済む『レザバーコンピューティング』を応用した独自のアルゴリズムを使っているため」（Sloosを提供するクアンタムコアの寺嶋毅・事業開発マネージャー）だという。

　個人なら月800円、法人は2千円と今回取り上げる中で断トツに安い。しかも時間は無制限、使いたい放題だ。同様のサービスの多くは、音声・テキストの保存が可能だが、Sloosはテキストをダウンロード後は、両方のデータが削除される。音声の保存が必要なら収録しておく必要があるが、セキュリティーに気を使う大企業からは引きが強いという。

　AI GIJIROKUは、リアルタイム、インポート双方に対応している。最大の強みはパーソナライズ機能だ。話者の音声データを機械学習の素材とすることで精度を向上させ、さらにユーザーのSNSとの連携により、頻繁に使われる単語を認識しやすくするという。

「AIが『この人ならこう言っているだろう』と推測する。専門用語や、自分の会社や部署でのみ使われる特異な単語がある場合、パーソナライズがあるとないとでは大違いです」（AI GIJIROKUを提供するオルツの米倉千貴社長）