たとえば、コンピューターの画面にモナリザの絵が映っているとしましょう。人間から見るとそれは美しい「絵画」ですが、コンピューターの中では、画面のどの部分にどの色を表示すべきかを表す色番号が羅列されたデータの塊があるだけです。
同じように人間の言葉についても、コンピューターで扱うにはまず数字に置き換える必要があります。
そこで、AIに人間の言葉(=自然言語)を処理させるために、ニューラルネットワークを使って単語の「意味」を数字で表現するということをやっています。この「意味の数値化」はAIに自然言語を処理させるための土台となる非常に重要な技術です。
ただし、意味を数値化するといっても、AIに単語の意味を直接教えるということはできません。というのも、AIは計算しかできないので、何らかの形で計算ができる手順に落とし込んであげないと処理できないからです。
単語の「意味」なんていう哲学的な概念そのものをAIが理解することはできません。
そこで、AI向けに、意味の似た単語を見分ける手順を教えてあげる必要があります。
では、どのように単語の意味を規定するかを見ていきます。まず、AIは、その単語が含まれる文章や前後の文章には他にどんな単語が出てきているかに着目します。このように、ある単語の周辺に現れる語彙のことを「周辺語」といいます。意味が似ている単語同士は、この周辺語が似ていたり、重なるものも出てくると考えられます。つまり、この周辺語を見ていくことで、意味の似た単語を分類できるのです。