統計で転ばぬ先の杖｜第1回そのグラフ、大丈夫ですか｜島田めぐみ・野口裕之

ホーム
島田めぐみ, 野口裕之, 統計で転ばぬ先の杖
統計で転ばぬ先の杖｜第1回　そのグラフ、大丈夫ですか｜島田めぐみ・野口裕之

2018.03.01

統計で転ばぬ先の杖｜第1回　そのグラフ、大丈夫ですか｜島田めぐみ・野口裕之

あちらこちらで発表された修士論文を見ると、最近は授業で統計手法について学ぶ機会もあるようで、多くの学生が統計手法を用いています。しかし、基本的な誤り、特に報告の仕方に誤りが少なからず見られます。本当に基本的なこと、基本中の基本は、当たり前すぎて、統計入門の本には書いていないのかもしれません。この連載では、当たり前すぎてどこにも書いていないようなことを考えていきたいと思います。

グラフの「大量生産」

初回は、グラフを取り上げたいと思います。なぜかというと、多くの学生がグラフを使うと効果的だと思っているようで、大量生産されているように思うからです。また、世に出ている論文を見ても、疑問に思うことがあります。

グラフの大量生産については、言語テストの専門家J. D. Brown も著書Using Surveys in Language Programsの中で、若手研究者はグラフをレポートの中で多用しすぎており、それらは効果的とは言い難いと、グラフの使いすぎを警告しています（Brown 2001: 118）。「グラフを使わなくてもいい」と言う例は後半取り上げますが、その前にグラフに関する基本的な誤りを見ていきましょう。

図には必要な情報を盛り込む

まず、基本中の基本ですが、図は、本文を読まずとも、それだけで何が示されているか理解できる情報が盛り込まれている必要があります。ところが、何を示しているのかわからない、という場合は少なくありません。グラフを見て、縦軸に単位が書かれていないので何を表しているのかわからない、字が小さすぎて読めない、カラーで作成したグラフを白黒コピーしたためどの棒が何を表しているか識別できない、などと思ったことは少なからず経験があるのではないでしょうか。グラフはExcelなどで簡単に描けるので、そのままコピー・ペーストしてしまうことが大きな問題ではないでしょうか。一手間入れて、情報を追加するなどの作業をしてほしいです。

例えば、次の図1は、授業受講者25名に行ったアンケート調査の結果です。質問に対する回答は5段階でなされているということは本文でわかったとしても、グラフが表す数値（質問1の4.2、質問2の4.8、質問3の3.8）は何を指すのでしょう。勘がいい人はすぐわかると思いますが、平均値を表しています。しかし、どこにも平均値とは書かれていません。必要な情報は図の中やタイトルに盛り込むべきです。

図1　アンケートへの回答

次の図2のタイトルは「レベル別あいづちの使用頻度」です。ということは、単位は何回使用したかという回数になるはずですが、図を見ると%となっています。図のタイトルは「レベル別あいづちの使用割合」や「レベル別あいづちの使用率」などとするべきでしょう。このように、図のタイトルは「頻度」、グラフの単位は「%」となっているグラフも少なくありません。

図2　レベル別あいづちの使用頻度

棒グラフとヒストグラムの違い

次の図9は宮本・倉元（2017）の「国立大学における個別学力試験の解答形式の分類」という論文中の「記述式問題の出題数の分布（前期日程）」というタイトルの図で、大学における記述式問題の出題数の分布を表したものです。160以上240未満の出題数の大学が21校ともっとも多いのがわかります。このようなグラフをヒストグラムと言います。棒グラフとの違いはなんでしょう。棒グラフは、棒と棒の間にスペースがありますが、ヒストグラムでは隣同士の棒がお互いに接しています。ヒストグラムは、各階級に含まれるデータ数を棒で表している点で棒グラフと同じです。しかし、階級が連続していると言う点で棒グラフとは違うのです。階級が連続しているから、棒と棒の間にスペースを入れません。言語教育分野では、テスト得点などで使用することが多いグラフです。逆に、階級が連続していない場合は、スペースを入れて棒グラフにしなくてはいけません。ところが、連続性のないカテゴリーなのにヒストグラムが使用されている例も見ます。

図9　ヒストグラムの例1

（宮本・倉元（2017:75）から引用、
引用元タイトル：記述式問題の出題数の分布（前期日程））

不要な棒グラフが多く使用されていることはすでに指摘したとおりですが、データの分布を見るためには、ヒストグラムで表すことは非常に有益です。次の表4は、島田・野口（2017）からのものですが、あるテスト得点の分布を表す度数分布表です。これをヒストグラムで表したものが図10です。いかがでしょうか。断然、図のほうが分布の様子がわかりやすいのではないでしょうか。このような図こそが効果的と言えるグラフだと思います。

表4　度数分布表例

（島田・野口（2017:6）より引用）

図10　ヒストグラムの例2

（島田・野口（2017:7）を元に作図）

散布図からわかることは多い

棒グラフは多用されすぎていると書きましたが、逆に図に示してほしいなと思うデータが相関係数です。相関関係を図に表したものが散布図です。相関係数を計算する論文は多く、相関係数と無相関検定の結果のみを示すものが多いです。

たとえば、クラスで読解テストと文法テストを行い、その関連性を見ようとして、相関係数を計算したところ、0.790でした。比較的高い値だとは思いますが、思っていたよりも低かったり、他の結果と比べると低い値だと思ったりするかもしれません。そこで散布図（図11）を確認すると、他の学生と異なる傾向を示す学生がいるのがわかります。この学生は読解テストは40点（平均点以上）なのに、文法テストは10点（最低点）です。このように、散布図を描くことにより、相関係数が（予想していた数値よりも）低い理由がわかる場合があります。ちなみに、この学生を除いて相関係数を再度計算すると0.926になりますが、この学生を計算から除外するかどうかは、計算の目的やこの学生が異質である理由などによるので、慎重に考える必要があります。

図11　散布図例1

また、次の例は、読書量（１ヶ月に読んだ本の冊数）と読解テストの結果の関連を調べたものです。相関係数は、0.630です。散布図を見ると、ある程度までは読書量が多いほど読解テストの得点は上がりますが、ある程度に達すると横ばいだということがわかります。このような傾向は、相関係数という数値にまとめてしまうとわかりません。

散布図を論文中に示すかどうかは、その内容によりますが、データ分析の過程ではぜひ散布図を描いて確認してもらいたいものです。

図12　散布図例2

まとめ

今回はグラフについて日々感じることをまとめてみました。今回のポイントをまとめると、次の3点になります。

1. 読み手がグラフだけを見て、グラフが何を表しているのか理解できるよう、必要な情報はすべて盛り込む。
2. 表のほうが情報を適切に表せる場合はグラフ化する必要はない（たとえばカイ二乗検定検定）。
3. グラフ化することにより得られる情報が多い場合は、グラフ化する（たとえば、ヒストグラムや散布図）。

次回は統計結果の記述のしかたについて考えたいと思います。

引用文献

Brown, J. D. (2001). Using Surveys in Language Programs. Cambridge University Press.
島田めぐみ・侯仁鋒（2009）「中国語母語話者を対象とした日本語聴解テストにおける選択肢提示形式の影響」『世界の日本語教育』19、国際交流基金、33-48
島田めぐみ・三枝令子・野口裕之（2006）「日本語Can-do-statementsを利用した言語行動記述の試み：日本語能力試験受験者を対象として」『世界の日本語教育』16、国際交流基金、75-88
島田めぐみ・野口裕之（2017）『日本語教育のためのはじめての統計分析』ひつじ書房
野畑理佳・ウィパー・ガムチャンタコーン（2006）「タイにおける中等学校日本語教員養成講座の概要と追跡調査報告：タイ後期中等教育における日本語クラスの現状」『世界の日本語教育』16、国際交流基金、169-187
宮本友弘・倉元直樹（2017）「国立大学における個別学力試験の解答形式の分類」『日本テスト学会誌』13-1, 70-84
森山卓郎（2009）『国語からはじめる外国語活動』慶應義塾大学出版会
李美靜（2006）「在日台湾人子どもの読解力の測定：中国語母語話者と日本語母語話者の読解力を比較分析する」『世界の日本語教育』16、国際交流基金、19-33
総務省統計局URL「なるほど統計学園」
http://www.stat.go.jp/naruhodo/c1graph.htm#section01（2018年2月2日閲覧）

これからの英語教育の話を続けよう｜第4回　「大学入学共通テスト」、「共通」にするかしないか、はっきりしよう｜藤原康弘

自分を変えるためのエッセイ作成術｜第14回　この世は答えられない謎ばかり｜重里徹也

統計で転ばぬ先の杖

統計で転ばぬ先の杖｜第6回　分散分析にまつわるDon’ts｜島田めぐみ・野口裕之

本連載は今回の第6回で最後です。連載最後の回は、分散分析を取り上げます…
統計で転ばぬ先の杖

統計で転ばぬ先の杖｜第3回　統計記号や参照マークも正確に｜島田めぐみ・野口裕之

統計の記号、斜体で書いていますかこの連載を読んで下…
島田めぐみ

統計で転ばぬ先の杖｜第2回　有意差の意味を理解して、正しい記述を！｜島田めぐみ・野口裕之

修士論文、雑誌に掲載された論文を読むと、結果の記述のしかたに疑問を感じ…
統計で転ばぬ先の杖

統計で転ばぬ先の杖｜第5回　カイ二乗検定と相関係数の検定（無相関検定）にまつわるDon’ts｜島田め…

カイ二乗検定の基本はクロス表にあり前回はt検定を取…
統計で転ばぬ先の杖

統計で転ばぬ先の杖｜第4回　t検定にまつわるDon’ts｜島田めぐみ・野口裕之

以前、『日本語教育』『社会言語科学』『世界の日本語教育』などの日本語教…
統計で転ばぬ先の杖

統計で転ばぬ先の杖｜書籍版刊行のお知らせ

本連載が書籍になりました。連載の内容に大幅な加筆をしての書籍化です。…

ひつじ書房ウェブマガジン

統計で転ばぬ先の杖｜第1回　そのグラフ、大丈夫ですか｜島田めぐみ・野口裕之

グラフの「大量生産」

図には必要な情報を盛り込む

人気の高い棒グラフですが

棒グラフとヒストグラムの違い

散布図からわかることは多い

まとめ

引用文献

関連記事

統計で転ばぬ先の杖｜第6回　分散分析にまつわるDon’ts｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第3回　統計記号や参照マークも正確に｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第2回　有意差の意味を理解して、正しい記述を！｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第5回　カイ二乗検定と相関係数の検定（無相関検定）にまつわるDon’ts｜島田め…

統計で転ばぬ先の杖｜第4回　t検定にまつわるDon’ts｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜書籍版刊行のお知らせ

ひつじ書房ウェブマガジン「未草」（ひつじぐさ）

連載中

連載終了

ひつじ書房ウェブサイト

最近の投稿

アーカイブ

ひつじ書房ウェブマガジン

統計で転ばぬ先の杖｜第1回 そのグラフ、大丈夫ですか｜島田めぐみ・野口裕之

グラフの「大量生産」

図には必要な情報を盛り込む

人気の高い棒グラフですが

棒グラフとヒストグラムの違い

散布図からわかることは多い

まとめ

引用文献

関連記事

統計で転ばぬ先の杖｜第6回 分散分析にまつわるDon’ts｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第3回 統計記号や参照マークも正確に｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第2回 有意差の意味を理解して、正しい記述を！｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第5回 カイ二乗検定と相関係数の検定（無相関検定）にまつわるDon’ts｜島田め…

統計で転ばぬ先の杖｜第4回 t検定にまつわるDon’ts｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜書籍版 刊行のお知らせ

ひつじ書房ウェブマガジン「未草」（ひつじぐさ）

連載中

連載終了

ひつじ書房ウェブサイト

最近の投稿

アーカイブ

統計で転ばぬ先の杖｜第1回　そのグラフ、大丈夫ですか｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第6回　分散分析にまつわるDon’ts｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第3回　統計記号や参照マークも正確に｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第2回　有意差の意味を理解して、正しい記述を！｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜第5回　カイ二乗検定と相関係数の検定（無相関検定）にまつわるDon’ts｜島田め…

統計で転ばぬ先の杖｜第4回　t検定にまつわるDon’ts｜島田めぐみ・野口裕之

統計で転ばぬ先の杖｜書籍版刊行のお知らせ