認知文法の思考法:AI時代の理論言語学の一つのあり方|第2回 理論言語学に対するディープラーニングのインパクト|町田章

はじめに

さて、前回は理論言語学者も絶滅の危機に瀕しているかもしれないと多少大げさに危機感をあおりました。実際、先日(2019年11月17日)、名古屋学院大学で行われた第159回日本言語学会でも「AIによって揺さぶられる言語理論―意味論の観点から―」というタイトルでシンポジウムが開催されたことからも分かるように、この危機感は僕だけのものではないようです。そこで、今回は「彼を知り己を知れば百戦殆うからず」という孫子の教えを出すまでもなく、僕らの敵、つまりAIの本性について見ていきましょう。とは言っても、前回もお断りしましたが、僕はAIの専門家ではありませんし、生粋の文系人間ですので、難しい数学の話しはスキップせざるを得ません。そこで、一般向けに書かれた『人工知能は人間を超えるか』松尾豊著)という本を参考に、今、AI開発で起こっていることの概念的理解を皆さんと一緒に深めていきたいと思います。

 

自ら発見する機械

たまたま、ネット上のニュースで「人工知能(AI)の技術を使って古文書などに書かれた難読の「くずし字」を解読する試みが、学術界で広がっている。」という記事を見つけました(2019年10月21日付け)(関連記事)。この記事の中で紹介されている「KuroNet(クロネット)」は、古文書の文書中のくずし字をAIが自動で認識し活字に置き換えるシステムだそうです。あのミミズのような曲がりくねった線から文字を見つけ出すなんて本当にすごいですね。これを読めるのは人口の0.01%といいますから、きちんとしたトレーニングを受けなければ、普通の人間はまず読めないわけです。

基本的に人工知能(AI)研究は構成論的アプローチで人間の知能を解明しようとする学問ですので、実際に「作ってみる」ことが不可欠になります。つまり、実際に作ってみてうまくいけばそれでよし、うまくいかなければまた考え直す、という作業を繰り返しながら人間の知能に近づこうとするわけです。上記のKuroNetはまさに古文書のくずし字を解読するAIプログラムを実際に作ってみたわけです。

これに対して、ことばを操る機械を実際に作ってみるわけではない理論言語学のような学問は分析的アプローチなどと呼ばれています。僕らは、実際の言語データを基に仮説を立て、その仮説が正しいかどうかを再度言語データを使って検証しますが、実際に、ことばを操る機械を作ることはしません。そして、分析的アプローチから構成論的アプローチに対してよく出る批判は「仮に作ったものがうまくいっても、それだけでは人間の知能を解明したことにはならない」のではないかというものです。例えば、鳥が空を飛ぶメカニズムを解明するためには、ただ空を飛べる機械を作っても意味がなく、鳥のように・・・・飛べる機械を作ってはじめて意味があるからです。つまり、人間と全く同じことができるかどうかにはそれほど意味はなく、人間のように・・・・考えることができるかどうかが問題なのです。

ところが、現在のAI研究にはそのような批判はほとんど当てはまりません。なぜなら、現在のAIの主流であるディープラーニング(または深層学習)は人間の脳神経回路を模した計算システムを持っているからです。もちろん、複雑さは人間の神経回路に遠く及びませんし、身体などの様々な人間的要素を取り入れていないため、まったく無批判に受け入れられるわけではありませんが、それでも、人間の脳神経回路をモデル化したものであるという点は、重要な進展だと思います。そして、このディープラーニングの最大の特徴は、大量のデータの中に見られる特徴を自ら発見し学ぶことです。つまり、人間の手を借りず、AIが自ら何かを発見し学ぶことができるのです(特徴表現学習feature learning)。

実は、以前からコネクショニズムなどの名のもとに人間の神経回路を模したAIは存在していました。しかしながら、これらのAIはなかなか成功を収めることができませんでした。その理由には、そもそもコンピュータの力が弱かったという問題もありますが、根本的な問題として、一番重要な部分において人間の手が必要だったということです。つまり、データの中から特徴を発見する部分は人間がやらなければならなかったのです。ディープラーニングがすごいのはこの最も重要で難しい部分を自ら行えるようになったところです。

では上記のKuroNetは何がすごいのでしょうか。KuroNetがすごいのは、いわゆる古文書に書かれた曲がりくねった線の中から特徴(パターン)を自ら発見し学習していった結果、かなりの精度で文字を判別できるようになったということです。これは専門家だけが持つ技能をKuroNetが身につけたことになります。

 

理論言語学に与える2つのインパクト

それでは、ここで簡単に紹介したディープラーニングは、理論言語学にどのような示唆を与えてくれるのでしょうか。僕は大きく分けて二つのインパクトがあると思っています。一つは言語観に関わるもので、もう一つは研究方針に関わるものです。前者は、認知言語学の理論的基盤の一つとなっている用法基盤主義(usage-based approach)に関わっています。認知言語学では、人間は大量の具体的な表現に接することにより、ことばを習得し、習得した知識体系を用いてことばを話したり聞いたりするという用法基盤モデル(usage-based model)を理論的基盤としていますが、仮にディープラーニングが人間の知能を正しくシミュレーションできているとしたら、大量なデータに触れるチャンスさえあれば、人間の神経回路はその中に特徴(パターン)を発見し、それを学習し、使用することができる可能性があるということになります。まだ、はっきりと結論を出すには時期尚早ですが、少なくとも、ディープラーニングと整合性がある理論言語学のアプローチは用法基盤主義であるということになります。(ちなみに、前掲書のp.193で著者の松尾豊氏は、言語に関する自身の考えはチョムスキーの考えに近いと述べています。僕自身は、この本を何度読み返してみても、生成文法とディープラーニングの間に整合性があるようには思えないのですが、皆さんはどう思われますか。)

また、研究方針についてのインパクトはAI研究の歴史が参考になりそうです。前掲書によると、ディープラーニングは2012年の画像認識の世界大会で飛躍的な前進を遂げました。画像認識大会とは、例えば、様々な画像の中から「ネコ」とそうでないものを振り分けるなど、入力された画像が何であるかを識別するプログラムを競う大会ですが、ディープラーニングを用いたある研究グループがその大会で衝撃的な結果を叩き出したのです。それまでの大会では、一年間で1%ほどのエラー率の改善が期待されていたのですが、なんと、ディープラーニングを用いたグループはおよそ10%ものエラー率の改善を成し遂げたのです。なぜディープラーニングはこれほどまでに一気にエラー率を下げることができたのか。これには特徴量設計(feature engineering)の問題が深く関わっています。ディープラーニングの出現以前では、画像認識を行うAIプログラムの特徴量の設計は人間の仕事でした。例えば、「ネコ」を例にとってみますと、研究者たちは毎年行われる大会で良い成績を収めるために、「ネコ」を「ネコ」たらしめている特徴を発見することに精を出していました。これを特徴量設計と言います。つまり、画像認識において肝心要の「ネコ」の特徴は人間が探していたのです。ところが、ディープラーニングでは、なんと、特徴量設計は人間が行うのではなく、AIが自ら行うようになったのです。先ほどのKuroNetの例で言うと、人間が予め「あ」や「い」などの文字の特徴量を設計するのではなく、大量の曲がりくねった線からAIが自ら「あ」や「い」などの文字の特徴量を抽出するということなのです。

実は、理論言語学で僕らがやってきた研究の多くは、AI研究者の視点から見れば、特徴量設計ということになります。例えば、一般に理論言語学者が英語の受動文について研究する場合、英語受動文が容認される条件(または容認されない条件)が何であるかを提案することになります。これは、「ネコ」をネコたらしめている条件を見つけるのと基本的には同じ作業ということです。したがって、普遍的な原理で書こうが、個別の規則で書こうが、意味的な条件で書こうが、とにかく、僕ら理論言語学者がやってきたことはAI研究の観点から見れば特徴量設計なのです。そして、2012年以前の画像認識研究と同様、言語学における特徴量設計の更新も遅々として進まなかったはずです。少なくとも僕にはそう映っています。ただ、問題なのはその先です。もし仮にディープラーニングの波が本格的に言語学の領域にまで入ってきたら、画像認識と同じく、このような特徴量設計の仕事が無くなるかもしれないのです。AIが自ら具体的なデータから特徴量を発見してくれるので、構文や語彙などの特徴はAIが発見することになります。そこに言語学者が介入する余地はないのです。

コーパス研究にもかなりのインパクトがあるはずです。現在のコーパスはタグなどを人力で付けることによって様々な用途に利用可能なものになっていますが、この作業はディープラーニングによって格段に楽になるはずです。単語の区分や品詞、構造などの特徴量をAIが自ら発見してくれるのですから。ただ、ディープラーニングのインパクトはそれにとどまらないと思います。なぜなら、ディープラーニングは多量の複雑なデータから特徴量を検出することを得意としているため、現在の研究者がやっているデータから何かを読み解く仕事がAIに奪われてしまうかもしれないのです。今のところ、コーパスによって得られた膨大なデータの中からどのような特徴量を取り出すかが研究者の腕の見せ所なわけですが、これ自体、ディープラーニングの得意とするところなのです。ディープラーニングでも取り出せないような特徴量を人間だけが取り出せるのなら話は別ですが。

 

ブラックボックス

このように考えると、ディープラーニングのインパクトはかなり大きいことがわかりますが、それでも、理論言語学者は生き残れるのでしょうか。実は、理論言語学者には一つ奥の手があります。それは何かというと、先日のシンポジウムでも少し話に出ましたが、ブラックボックスという考え方です。実は、ディープラーニングには弱点があります。それは、ディープラーニングは、入力に対して正しい出力が出てくるだけで、その中間段階で何が起きているかについては何も明らかにしないということです。言語学で喩えるならば、容認される受動文と容認されない受動文は正確に区別できるが、どうやって区別するかについては何も言わない。これがディープラーニングなのです。仮に、将来、ディープラーニングを用いたAIが人間と普通に会話するようになったとしても、どのようなメカニズムが働いて、ことばを理解し発するのかは依然わからないまま、つまり真相はブラックボックスの中にあるままなので、AIは理論言語学者の脅威にはならない。そして理論言語学者の仕事はまさにこのブラックボックスの中身を明らかにすることにあるというわけです。これは、構成論的アプローチに対する分析的アプローチが行う典型的な批判です。

もちろん、語彙情報をブラックボックスに入力すると正しい文が出力として出てくるというモデル(メタファー)で考えた場合、いくら正しい出力が得られたとしても、ブラックボックスの中でどのような情報処理が行われているかを明らかにする必要があります。ただ、問題なのは、このブラックボックスのメタファーの妥当性です。実際、人間の脳の神経細胞のネットワークを見た場合、情報処理過程と記憶過程は分化していないことはよく知られています。つまり、脳内では、神経細胞同士のつながりで、記銘、保持、想起、情報処理などをすべて行っているため、そもそもここで言うブラックボックスに当たるものがないのです。用法基盤モデルについては後の機会で詳しく紹介しますが、このモデルでは言語習得も言語運用も区別しません。脳内に張り巡らされた神経細胞のネットワークそのものが学習された知識であり、そのネットワークそのものが正しい出力を生み出す情報処理システムだと考えるからです。実は、用法基盤モデルは表現の生成について何も説明していないという批判を受けることがありますが、これはディープラーニングに対するブラックボックスの批判と基本的に同じことになります。表現の生成も記憶もカテゴリー化の観点からは同じ現象と見なされるため、区別ができないのです。そのように考えると、そもそも僕らが考えるようなブラックボックスは存在しないかもしれません。ディープラーニングで学習した回路そのものが僕たちが探し求めているものということになります。

 

まとめ

今のAIがすごいところは、状況の中から自ら特徴を見つけて学習することができるということです。しかも、それは、人間の脳神経回路を模すことによって可能になったという点も重要です。このように考えると、今のAIは飛躍的に人間の知能に近づいたと言えるでしょう。そして、今後のAI研究の動向によっては、理論言語学者がこれまでしのぎを削ってやってきたことが一瞬のうちに水の泡となってしまう可能性もあります。2012年の画像認識世界大会に参加した他の研究者たちの気持ちを考えてみてください。何十年もかけて、一歩また一歩と前進してきた研究が一夜にして否定されてしまったのです。心中推して知るべしです。言語学で言えば、僕らが血眼になって探してきた構文の特徴や容認される条件をAIが瞬時に見つけ出してしまったらどうでしょうか。

最後に、理論言語学者が絶滅しないための提案が2つあります。一つは、これからは、AI研究から得られる知見と矛盾しない言語観を持ちつつ、AI研究に対して積極的に提言を行っていくこと。そして、二つ目は、AIが得意とする手法は積極的に活用しつつも、これと競合しない研究手法で戦うこと。よく言われることですが、「変化に最も対応できるものが生き残る」(チャールズ・ダーウィン)ということですね。

 

関連記事

ひつじ書房ウェブマガジン「未草」(ひつじぐさ)

連載中

ひつじ書房ウェブサイト

https://www.hituzi.co.jp/

  1. onohan オノマトペハンター おのはん!|第3回 今回のオノマトペ:「ふわふわ」「もぐもぐ…
  2. 句読法、テンマルルール わかりやすさのきほん|第1回  句読点の規則|岩崎拓也
  3. 外国人労働者の受け入れに日本語教育は何ができるか|第8回 年度末に向けての動き|…
  4. 外国人労働者の受け入れに日本語教育は何ができるか|第6回 現状の把握と日本語教育…
  5. 第30回 ウクライナ避難民の受け入れと日本語教育施策|田尻英三
PAGE TOP