初級レベルは3学部(言語文化学部、国際社会学部、国際日本学部)の横断的な履修科目で、データサイエンスの基本を学ぶことから始まり、徐々にデータを扱う技術、アルゴリズム、プログラム、統計処理などに取り組んでいく。
「上級の実践的な科目は学部に分かれていますが(開講学部以外は関連科目扱い)、最終的にはコーパス(corpus)や統計、GIS(Geographic Information System:地理情報システム)など、情報システムに使う領域まで学んでいきます」
コーパスとは、人間が話す言葉や、書き記した文章を材料に収集したクラウド上にある言語データベースで、それを基にさまざまな研究が行われているという。
「クラウド上に集められた膨大な言語データをコンピューターによって処理します。すると例えば、この動詞の後にはこの前置詞がくる頻度が何%と出てくる。この言語の文法はこうなっている、ということを機能的に推定できます。データサイエンスは言語学にとって、非常に強力なツールであり、そこからさまざまな、とても有益なアプリが開発されています」
すごいアプリが続々と登場
青山副学長の話が進むにつれて、最近、言語とデータサイエンスが結びつき、私たちの社会に深く浸透しつつあることに気づかされ、ハッとした。
例えば、スマホに話しかけるだけでさまざまな情報を教えてくれる音声検索を利用している人は多いだろう。しかも、あらゆる言語に対応している。これはコーパスとデータサイエンスが結びついた果実の一つだ。
翻訳ツール「DeepL(ディープエル)」や、対話型の文章生成ツール「ChatGPT(チャットジーピーティー)」などもある。
ちなみに、筆者が愛用している自動文字起こしアプリもその一つである。取材で録音した音声を書き起こしてくれるのだが、単純に音声を文字に変換するのではなく、不明瞭な部分は文章がつながるように生成してくれる(もちろん、それが正しいかチェックする)。取材後に調べようと思っていた専門的な固有名詞もクラウド上で見つけ出し、的確に書き起こしてくれ、筆者を唸らせる。