エビデンスの質──「いいものはいい、悪いものは悪い」
太郎:日本の普通の小学生を対象に、小学校英語の効果を調査した研究って結構あるんですか?
寺沢:たくさんあるよ。
太郎:え、そうなんですか!?
寺沢:意外?
太郎:はい。さっきの論文の冒頭、なんだか「エビデンスはまだないから私がこれから研究します」みたいな書きぶりだったから・・・。
寺沢:いいところに気づいたね。ポイントは、「エビデンスはたくさんある。でも、質の良いエビデンスはまだない」ってこと。
太郎:ああ、質が重要なんですね。
寺沢:そのとおり。たしかに、日本では早くも1980年代後半頃から、早期英語経験者の追跡調査が行われてきたんだ。
太郎:へえ、もう30年以上前からか・・・。
寺沢:初期に調査を主導したのは早期英語をやってる先生たち、およびその理解者である大学の先生たち。「早期英語」はここでは、公立小学校の外で行われる英語教育の意味ね。たとえば、幼児英会話教室とか児童英語塾とか、あと、私立小学校も含まれる。
太郎:へえ。旧文部省やプロの教育学者が調査をやってたわけじゃないんですね。
寺沢:小5なのに「旧文部省」なんて言葉がすぐ出てくるね・・・。それはともかく、早期英語関係者の熱意は相当なものだったと思うよ。だって、当時はまだ小学校で英語を教えるなんて想像すらできなかった時代だったけど、だからこそ早期英語の有効性を示そうと立ち上がったわけ。
太郎:「私たちは経験上、児童英語教育は効果があると知っている! それをデータで示すんだ!」ってことですね。
寺沢:残念ながら、その期待は裏切られてしまう。
太郎:そうなんですか。
寺沢:第一に、結果がバラバラ。ある調査では、たしかに早期英語経験者のほうが非経験者より良いパフォーマンスを示したんだけど、別の調査では差は見られなかった。結局、いろんな調査が行われたんだけど結果に一貫性は確認できなかった。
太郎:なるほど。
寺沢:第二に、こっちがエビデンスという観点ではより重要だけど、エビデンスの質が良くないものがほとんどだった。
太郎:質?
寺沢:エビデンスの質は、どういう研究デザインを採用するかで、ある程度決まってしまう。たとえば、著名な学者やいわゆる「英語教育のカリスマ」がやった調査だったとしても、デザインがダメなものはダメ。質が低いと評価する。
太郎:ふむ。
寺沢:逆に言えば、その辺りの金持ち小学生が、調査に多額の予算を投入して、あと、政策学者や調査会社にコンサルタントを頼んだりして、ものすごく良いデザインの自由研究をやったとする。この場合、質の良いエビデンスと評価される。
太郎:そんな自由研究はありえないですけど(笑)、その点でいうと、民主的(非権威主義的)な基準ですね。
寺沢:そのとおり。「誰が研究したか」ではなく「どう研究を行ったか」に注目するわけだからね。
太郎:ということは、児童英語の先生たちの調査はデザインが良くなかったということですか。
寺沢:そういうことになるね。
太郎:情熱を持って挑んでたのに何だか残念ですね。
寺沢:たしかに、小学校英語が「非常識」だった時代から、その意義を世間に知らしめるべく地道に調査を続けてきたことは敬意に値するよね。でも、それと研究の質は関係ない。やるなら、学校調査の専門家や公共政策学者と共同研究を行うなり、助言を受けるなりすべきだったよ。
太郎:餅は餅屋みたいな話ですね。
寺沢:金子みすゞの詩に「みんなちがって、みんないい」という有名なフレーズがあるよね。研究にも基本的には当てはまる。つまり、それぞれの研究にそれぞれの良さがある。でも、例外はあって、エビデンスには当てはまらない。
太郎:「良いものは良い。悪いものは悪い」なんですね。
寺沢:そう、悪いデザインの調査研究をどう好意的にいじくり回しても、良いエビデンスに生まれ変わらせることはできない。あと、質の低いエビデンスを何十個、何百個寄せ集めても、良いエビデンスにはレベルアップしないしね。
太郎:エビデンスの考え方は無慈悲だなあ。
内的妥当性
太郎:じゃあ、先行研究には、研究デザインの面でどんな問題があったんですか?
寺沢:問題点は少なくとも5個あって、厳密に数えるとさらに・・・
太郎:全部言おうとしないで下さい! 本当に重要なものだけでいいですよ!
寺沢:わかったわかった。じゃあ、今日は、2点だけ。第一に、内的妥当性の問題。第二に、外的妥当性の問題。
太郎:ないてきだ・・・何ですって?
寺沢:これらの言葉は別に覚えなくて大丈夫。実際、分野によって呼び方は色々だから。アイディアだけ理解してね。
太郎:はい。
寺沢:一つ目の内的妥当性。適切な比較対象と比べて初めて、効果あり/効果なしは言えるという話。
太郎:うーん、その説明でもちょっとよくわかんないです。
寺沢:たとえば、小学校英語の経験者の追跡調査を考えてみよう。小学校のときに英語を学んだことのある中学1年生を集めて、「小学校英語は、中学の英語の授業で役立ってますか?」って聞いてみる。すると、8割の子たちが「役立った」と答えた。
太郎:多くの生徒が肯定的だ。エビデンスじゃないんですか?
寺沢:じゃあ、ここで問題。この調査の問題点は?
太郎:回答が生徒の主観に過ぎないところですか?
寺沢:それもそう。だけど、ここでは置いておこう。仮に「主観も信頼できる」としたとしても、比較対象の面で問題がないかな?
太郎:うーん・・・。あ! この調査は、小学校英語を経験していない人と比較してるわけじゃないとこですか!?
寺沢:そのとおり。比較対象がないので、小学校英語の効果なのか、それとも、この生徒たちが肯定的な回答をしやすいだけなのかわからない。
太郎:たしかに、小学校時代の先生を慕っているポジティブボーイズ&ガールズだったら、英語であれ算数であれ国語であれ道徳であれなんでも「役立った」と答えそうですよね。
寺沢:でしょ?
太郎:言われてみれば、ですけど、小学生でもわかるヘンテコさですね。
寺沢:たしかにヘンテコなんだけど、比較対象なしで「効果があった」と強弁する調査は残念ながらけっこうあるんだ。上の例も実は架空の調査じゃなくて、文部科学省の調査なんだよね。
注:「小学校外国語活動実施状況調査」2012年。ちなみに、文科省教育課程企画特別部会(2015年4月28日)は、この調査結果をもとに、「外国語活動に肯定的な児童が多い」「約8割の中学1年生が、小学校外国語活動の授業で学んだことが中学校の英語の授業で役だったと考えている」と結論づけている。
http://www.mext.go.jp/b_menu/shingi/chukyo/chukyo3/053/siryo/__icsFiles/afieldfile/2015/05/25/1358061_03_04.pdf
太郎:文科省の調査で、このレベルなんですか。
寺沢:まあ、そういうことになる。
太郎:先行研究はみんな比較なしで、効果ありと言ってるんですか?
寺沢:いや、そうじゃない。もう少し、微妙な場合の方が多い。たとえば、たしかに早期英語の非経験者と比較はしているんだけど、その比較対象が適切とは言えない場合。
太郎:どういうことですか?
寺沢:たとえば、児童英会話スクールに通ったことのある人と、そうでない人を比較した研究を考えてみてほしい。児童英会話にわざわざ通う子を想像してみて。親が教育熱心だったり、スクールに通うわせるだけの経済的余裕があったり。あと、そもそも習う前から英語に興味がある子たちとか・・・。
太郎:どちらかといえば「恵まれている子ども」の可能性が高そうですね。
寺沢:うん。だとすると、これら2つのグループを比較しても、児童英語の効果とは単純に言えなくなってしまう。
太郎:なるほど、「恵まれた環境だったからこそ英語ができるようになった」とも言えてしまうわけですね。
寺沢:そのとおり。不適切な比較対象を採用してしまう研究は、とくに1990年代頃までの児童英語研究によく見られたよ。とは言っても、最近でもよく見るけどね。
太郎:進歩がないんですか。
寺沢:学界をリードした偉大な先輩方もやってきた調査デザインだからきっと大丈夫!みたいな軽いノリで真似してるのが実情じゃないかな。
太郎:赤信号みんなで渡れば、みたいな話ですね。
寺沢:この手の「適切な比較をせずに有効性を主張する」という作法は、小学校英語に限らず、けっこういろんなところで採用(悪用?)されている。リサーチ・リテラシーの一つとして知っておいてもいいね。
外的妥当性
寺沢:二つ目の外的妥当性はもっとシンプル。要は、調査対象者の偏りをなくしましょう、できるだけ多様な人々から選びましょうという指針ね。
太郎:それはなんとなくわかります。特殊なグループだけを調査しても、それはあくまでそのグループだけの傾向ですからね。
寺沢:そのとおり。小学校英語の先行研究にも同じことが言える。
太郎:特殊な児童だけを調査してたってことですか。
寺沢:そう。とくに初期の研究では多かった。たとえば、私立小学校の生徒を対象にするとか。
太郎:たしかに、私立小と公立小は、学校環境も児童の層もぜんぜん違いますよね。
寺沢:小学校英語政策はなにより、公立小が対象なわけで、「普通の公立小児童」にできるだけ近い集団を調査しなくてはならないよね。でも、そういうのができていない研究が多かった。
太郎:じゃあ、具体的にはどうすればいいんですか?
寺沢:無作為抽出という方法が広く使われてるよ。
太郎:無作為・・・? 対象者を選ぶときは作為はダメですよってことですか?
寺沢:いや、日常語の「作為」よりももっと狭い意味。人間の「なんとなく作為なし、なんとなくデタラメ」って、結局、想定外の偏りが混入しちゃう。だから、ここではくじ引きとか乱数とかを使って、「完全な無作為」を実現するわけ。
太郎:面倒臭そうだなあ。
寺沢:でも、そのおかげで、調査結果を、より大きな集団に一般化できるんだよ。
太郎:小学校英語の例で言えば、日本の公立小全体への一般化ということですね。
寺沢:そのとおり。でも、残念ながら、先行研究のほぼ全てが、無作為抽出をやっていないので、そうした一般化はできないんだ。
太郎:やってないって本当ですか?
寺沢:うん、ほとんどが、便宜抽出と言って、自分が教えてる学校や知り合いの学校でアンケートを配るパタン。これでは、公立小学校の平均像はわからないよね。
太郎:でも、そっちのほうが楽そうですね。乱数で対象者を選ぶのって、大変そうだし。
寺沢:うん、無作為抽出は、実際コストが大きいよ。でも、ちゃんとした調査ではみなこれが使われている。たとえば、内閣府やマスメディアがやってる世論調査とか、選挙の出口調査なんかはそうだね。もちろん政策学者とか社会学者とか教育学者とかもやってる。
太郎:小学校英語も政策的なインパクトが大きいわけで、それくらいのコストをかけてもいい気がしますね。