認知文法の思考法|第4回 “常識” で壁を越える|町田章

はじめに

さて、前回は、「こどもは大量にことばを聞いて覚えると話せるようになる」という一般の人々にとっての“常識”がいかに理論言語学者にとっての“非常識”なのかという問題について紹介しました。生成文法を代表とする理論言語学者にとっては、どう考えても周囲の大人たちが話していることばを大量に聞いただけでは、こどもは話せるようになるはずがないのです。そして、そのように考えることが理論言語学者の“常識”になったのは、チョムスキーが「刺激の貧困」という問題を指摘したからに他なりません。この刺激の貧困のために、ただ聞いて覚えるだけでは人間は話せるようにはならないはずなのです(「刺激の貧困」に関しては本連載第3回を参照)。そこで今回は、この「刺激の貧困」のうち、「人間が触れることのできる言語データには不完全なものが多い」という事実に着目して考察してみましょう。

 

“常識的”かつ“非常識”な用法基盤主義

実は、上記のような理論言語学者の“常識”に対して異を唱える立場があります。それは、用法基盤主義(Usage-based Approach)などと呼ばれる考え方で、これに従うと、人間は実際に用いられたことばを大量に覚えることによって言語を習得していることになります。用法基盤主義に関しては、後の回で詳しく取り上げるとして、とりあえず、ここでは、そのような言語観・研究観があるのだということだけ押さえておいてください。注意しなければならないのは、この考え方はあくまでも言語現象の根源はすべて言語使用(usage event)の現場にあるという研究上の信念(「主義」、approach)であるということです。ですので、用法基盤主義は言語習得だけに適用される考え方ではないということです。したがって、用法基盤主義とは、どんな言語現象にも当てはまる“言語を見る視点”だということになります。そのため、この主義を背景とした研究は、音声、語彙、構文から、社会言語学的研究、ことばの変化に関する研究(歴史言語学)に至るまで様々な領域に見られます。

さて、実は、この用法基盤主義は“常識的”でかつ“非常識”であるという正反対の側面を持っています。例えば、言語学を学んだことがない学部生や一般の方々に用法基盤主義について話をすると、どんな反応が得られるでしょうか。僕の経験から言うと、学部生は「先生、そんなの当たり前でしょ」と呆れ顔をするか、逆に、「先生!私も前からそう思ってました!」と目を輝かせます。また、公開授業に訪れた一般の方々からは「そんなの当たり前じゃないか。言語学者にいちいち説明してもらわなくてもみんな分かっているよ。」とバカにされる始末です。つまり、彼らにとって用法基盤主義はあまりにも“常識的”すぎるので学問の香りがしないのです。その一方で、生成文法をはじめとする理論言語学者からは、「認知言語学者は何をそんなナイーブなことを言っているんだ。それじゃあ素人と同じだろう。」とこれまたバカにされることになります。つまり、玄人たちにとっては、用法基盤主義は“非常識”だということになるわけです。

 

頻度と定着

そもそも、大量にことばを聞いて覚えると話せるようになるかという問題については、それは無理だという結論に僕たち言語学者は達したはずです。それなのに、なぜ今さら、この“常識”に異を唱えるのでしょうか。少なくとも、“常識”に異を唱えるのであれば、それなりの証拠を示さなければならないですよね。でも、実は、その証拠を言語理論内で示すというのは案外厄介な課題です。不可能な気もします。そして、そこで登場するのが、ディープラーニングなのです。ディープラーニングは人間の学習の営みをある程度シミュレートしていますので、予めプログラムされていない、まっさらなニューラルネットワークが大量の言語データを与えられただけでことばを学習することができれば、それが用法基盤主義は正しい方向を示しているということの一つの証拠になるのです。

ここでは、赤ちゃんがことばを習得する際に触れる言語データ(周囲の大人たちが使うことばの総体)は不完全なところがあるのにもかかわらず、赤ちゃんはことばを習得できるのはなぜかという問題に絞って、ディープラーニングが与えてくれる知見を紹介します。赤ちゃんがことばを習得する際に触れることばには、「言い淀みや言い誤り」、「とぎれとぎれの表現」などが含まれていることが多く、“常識的”に考えれば、このような状況は言語習得の障害になるはずなのです。

まず、「言い淀みや言い誤り」が含まれるという問題について考えてみましょう。当然のことですが、人間は過ちを犯します。チョムスキーはこどもが触れる言語表現の中には数多くの誤りがあるにもかかわらず、なぜ誤った表現を習得してしまわないのかと疑問を投げかけています。ただ、この問題は、ディープラーニングを持ち出すまでもなく、頻度(frequency)という考え方を取り入れれば、思ったよりも簡単に解決できそうです。正しい表現(例えば「アキハバラ」)と誤った表現(「アキハラバ」)ではそもそも出現頻度が違います。誤った表現は出現頻度が低いので基本的には記憶に定着しないのです。これは、ディープラーニングによる機械学習に関しても同じことが言えます。そして、これはことばの問題には限らないということにも留意しておきましょう。記憶の定着に出現頻度が影響するのは、記憶に関する我々の脳の仕組みの問題であり、つまり、言語を越えた一般認知の特性なのです。

 

必要な不完全性

面白いのはここからです。「とぎれとぎれの表現」が多く含まれているのに正しい表現(文法)が習得できるのはなぜかというチョムスキーの指摘はどうでしょうか。「言い淀みや言い誤り」と同じように出現頻度とそれに伴う定着の可能性の問題として解決できるでしょうか。普通に考えたら、おそらく無理です。なぜなら、日常会話に現れるとぎれとぎれの表現は、とにかく、“すごい”からです。実際、日常会話を分析しようと思って、会話を文字に起こしたことがある人なら何が“すごい”かわかると思います。例えば、下のAとBの会話を見てください。

 

A: なんだった?
B: カメラ。
A: うわー。カメラ。
A: ぼくの?
B: やたら見てたからねえー、カメラ。
A: あ、それは言って欲しかったなー。
B: きれいに分解できてる。
A: そうだけどさー。
村田製作所CM

 

正直なところ、文字に起こしただけでは何を話しているかすら分からないと思います(知りたい方はココをクリックしてください)。しかも、ここから文法構造を復元しなければならないとしたら、その作業は熟練の言語学者にとっても大変ですよね。表現されていない主語や述語などを補うことができますか。それをこどもが常時やっていると考えたら、ただただ“すごい”としか言いようがありません。

ただ、ここでは意味理解(意図理解)という観点ではなく、純粋に、「とぎれとぎれの表現」から正しい表現(文法)が習得できるのかだけを考えてみましょう。これは特別な会話ではありません。僕らの普段の会話に耳を傾けてみればわかりますが、家族や友達との普段の会話はこのようなことばの断片だらけなのです。そして、赤ちゃんはこんなとぎれとぎれの言語データに接しながらことばを習得するわけですから、チョムスキーが正しい表現(文法)を習得するためのデータとしては不完全だと言うのも無理はありません。こんなとぎれとぎれのことばをどんなに大量に集めても、SOVという日本語の基本語順や主語などの文法概念などは学習されないのではないでしょうか。それでも、こどもはこのような不完全な表現を大量に聞いて覚えるだけで話せるようになると自信をもって主張できますか。主張するからには説明責任がともなわれますよ。実際、この問題は、用法基盤主義をとっている認知言語学者にとって想像以上に重くのしかかってくるはずです。そして、ここでディープラーニングの助けを借りることになります。ディープラーニングに関する知見を持っていると胸を張って「習得できる」と言えるようになるからのです。

 

甘やかしてはダメ

多くの方にとって、こどもを甘やかして育てることには抵抗があると思いますが、それはなぜですか。もちろん、甘やかされて育ったこどもはストレスや逆境に弱く、ちょっとしたことでもすぐにへこたれてしまうようになるからですよね。つまり、甘やかしすぎると“生きる力”が育まれないのです。そのため、親はあえてこどもにいろんな試練を与えたりするわけです。しかも、甘やかしてはいけないのは教育だけではありません。健康にも同じことが言えます。あまりにも清潔すぎる環境(無菌状態)に慣れてしまうと、細菌やウイルスなどへの抵抗力が衰えてしまうことはよく知られています。そこで、あえて適度にストレスを与えて頑健な精神や身体を作るわけです。

そして、この甘やかしてはならいという“常識”に気づいたことが機械学習にブレークスルーを起こしたということが『人工知能は人間を超えるか』(松尾豊著)の166ページから172ページで紹介されています。実は、AI研究においてディープラーニングに近いアイディアは昔からあったそうです。ところが、アイディアは間違っていないという確信はあるのになぜか結果が出せない。そんな停滞期が長く続いていたのだそうです。この停滞を打ち破ったのは、まさに、甘やかしてはならないという“常識”だったのです。具体的に言うと、機械に入力するデータにあえてノイズを入れる、つまり、良質のデータだけを入力するのではなく、あえて、不完全なデータを混ぜるのです。例えば、ネコの画像を認識させるようにしたければ、正面から写ったネコの写真だけを大量に入力するのではなく、顔が半分しか写っていない写真やひっくり返っている写真など、ある意味、機械にとっては認識しづらい“意地悪な”写真をあえて混ぜておくのです。そのようにすると何が起こるのか。実は、このようにいじめぬかれた機械は、ちょっとやそっとのことではぐらつかない頑健なネコの特徴を学習するようになるのです。

これはある意味、逆転の発想でした。普通は、人にものを教えるときには、できるだけ親切に教えますよね。でも、その親切さはむしろ有害だということです。本人に深く考えさせるためには、あえて意地悪な問題やときには悪問まで混ぜたほうが本人のためになるということなのです。そして、このように不完全なデータを混ぜることによって、ディープラーニングの精度は格段に上がることになります。学習をより強固に行うためにはむしろ不完全なデータを利用するべきだということなのです。不完全なデータで学習した方が頑健性、柔軟性を持つようになるんですね。

もうお分かりですよね。このディープラーニング研究が言語習得に示唆するところは、こどもが言語習得の際に触れる日常会話のデータに「言い間違いや言い淀み」、「とぎれとぎれの表現」が多く含まれているという事実は、チョムスキーが言うように言語習得を困難にするのではなく、むしろ、頑健な文法を構築するのに不可欠な要素だったのです。少なくとも、脳内の神経回路を模したディープラーニングは、そのように示唆しているのです。

 

まとめ

今回は、プラトンの問題の中の「人間が触れることのできる言語データには不完全なものが多い」のになぜこどもはことばを習得できるのかという問題について考えてみました。そして、この問題を考える際に、ディープラーニングの知見を参考にするのがいかに有効であるかということも考えてみました。重要なのは、この問題に関しては、言語学内で議論していてもなかなか真実が見えてこないということです。他分野であるAI研究の研究成果を取り入れることではじめて答えが見えてくる問題だったのです。

そして、このことは逆に、「言い淀みや言い誤り」「とぎれとぎれの表現」をしない、理想的な話し手聞き手(ideal speaker and hearer)から得られた完全な言語データだけをこどもが聞いて育ったとすると、ディープラーニングの停滞期がそうであったように、ちょっとやそっとでは揺るがない頑健な言語知識を身につけることができない可能性があることも示唆しています。つまり、チョムスキーの懸念は実は全く逆で、むしろ、言語データは不完全である方がよく、完全なデータは言語習得の妨げになるかもしれないのです。

そのように考えてみると、英語教育について、ふと思い当たる節があります。書き言葉で書かれた教科書、つまり、完全なフルセンテンスだけで書かれたような教科書では、自然な英語力は身につかないなどという批判を聞いたことはありませんか。いわゆる、“使えない英語”ってやつですよね。でも、その原因は、フルセンテンスが血の通わない死んだ英語であることにあるのではないかもしれません。僕らの脳の構造上、そのような純粋培養された言語データからは頑健で柔軟な言語知識は育たないからなのかもしれないのです。甘やかされた僕たちの神経回路には、自然な環境で使える頑健性が育まれないというわけです。教科書英語が使えないと言われる原因の一端はここにあったのかもしれませんね。

関連記事

  1. 認知文法の思考法:AI時代の理論言語学の一つのあり方

    認知文法の思考法|第6回 心の中のマトリョーシカ|町田章

    はじめにこれまでの連載で、生成文法が掲げているプラトンの問題とそれ…

ひつじ書房ウェブマガジン「未草」(ひつじぐさ)

連載中

ひつじ書房ウェブサイト

https://www.hituzi.co.jp/

  1. 古代エジプト語のヒエログリフ入門:ロゼッタストーン読解|第1回 ヒエログリフとエ…
  2. 古代エジプト語のヒエログリフ入門:ロゼッタストーン読解|第22回|ロゼッタストー…
  3. 芥川賞作品を読む|第18回 李恢成『砧をうつ女』(第六十六回 1971年・下半期…
  4. 第14回 日本語教育に関わる二つの流れをどう考えるのか|田尻英三
  5. ことばのフィールドワーク 薩摩弁| 第1回補遺 (1) 薩摩弁の語音調 (1) …
PAGE TOP