カケル「先生、データの分析で出てくる代表値と中央値って、どっちもデータの真ん中を表すんですよね? なんか、似ているけど、どう違うのかイマイチよく分からなくて…」
テイス「カケルさん、鋭いですね。確かに、代表値と中央値はどちらもデータの中心を表す指標ですが、その意味合いと使いどころに大きな違いがあります。まず、カケルさんが考える『データの真ん中』とは、具体的にどのようなイメージでしょうか?」
カケル「えっと…、データの数を線で並べたときに、ちょうど真ん中にくる値、みたいなイメージです。でも、代表値も真ん中を表すってことは、同じじゃないんですか?」
テイス「なるほど、カケルさんのイメージ、とても分かりやすいです。そのイメージは、まさに中央値の考え方と一致しています。では、代表値という言葉から、何か別のイメージは湧いてきませんか?代表、という言葉をヒントに考えてみましょう。」
カケル「代表…、代表選手とか、会社の代表とか…、あっ! データ全体を代表する値ってことですか?中央値は、あくまで真ん中だけだけど、代表値はデータ全体の特徴を掴むのに使うんですか?」
テイス「素晴らしい!その通りです。代表値は、データ全体の性質や特徴を『代表』する値であり、その中でも平均値、中央値、最頻値などがよく用いられます。一方、中央値は、データを小さい順に並べたときにちょうど真ん中にくる値のこと。カケルさんが最初にイメージした『真ん中』は、まさに中央値のことですね。では、ここで一つ質問です。もし、データの中に極端に大きな値があった場合、中央値と代表値(今回は特に平均値で考えましょう)はそれぞれどのように影響を受けるでしょうか?」
カケル「えーっと、平均値は全部の値を足して割るから、極端に大きい値があると、平均値が大きくずれちゃいますよね。中央値は、真ん中の値だから、極端な値があっても、そんなに影響を受けない気がします。」
テイス「はい、その通りです!カケルさんの理解、素晴らしいですね。平均値は、すべてのデータの影響を受けるため、外れ値(極端に大きい、または小さい値)の影響を受けやすいという特徴があります。一方で、中央値は、データの並び順における位置で決まるため、外れ値の影響を受けにくいという特徴があるのです。そのため、データの分布に偏りがある場合や、外れ値が存在する場合は、中央値の方がよりデータの中心を表すのに適している場合があります。例えば、年収のデータなどを考えると、高額所得者の影響で平均年収が実際よりも高く算出されてしまうことがあります。そういった場合には、中央値の方がより実態に近い値を表していると言えるでしょう。」
カケル「なるほど!平均値と中央値には、そんな違いがあったんですね。だから、代表値といっても、場面によって使い分ける必要があるんですね。でも、代表値って、平均値と中央値以外にもあるんですよね? 最頻値ってのは、なんですか?」
テイス「カケルさん、素晴らしい質問ですね。最頻値とは、データの中で最も多く出現する値のことです。例えば、あるクラスの生徒の好きな果物を調べたときに、りんごが一番多かった場合、りんごが最頻値となります。最頻値は、特に質的なデータ(例えば、色や種類など)を表す場合に有効です。例えば、洋服屋さんでどの色の服が一番売れているかを知りたいとき、最頻値が役に立ちますね。さて、ここで少し応用問題をやってみましょう。ある会社の社員の給料データが以下のようにあります。
500万円, 520万円, 550万円, 580万円, 600万円, 620万円, 650万円, 700万円, 750万円, 2000万円。このデータから、平均値、中央値、そして可能であれば最頻値を求めてみてください。また、これらの値から、この会社の給料の状況についてどのようなことが言えるでしょうか?」
カケル「はい! 平均値は、全部足して10で割ると、747万円になります。中央値は、データを小さい順に並べて、真ん中の値だから、600万円になります。最頻値は、このデータには同じ値がないから、ないんですね。えーと、この会社の給料は、平均値が747万円で、中央値が600万円だから、一部の高給取りの人がいるせいで、平均値がかなり高くなってて、多くの人は中央値の600万円くらいの給料ってことですか?」
テイス「素晴らしい分析力です!カケルさんの言う通り、この会社の給料は、一部の高給取りの存在によって平均値が押し上げられており、中央値の方が実態をより適切に表していると言えます。このように、データの特性や目的に合わせて、適切な代表値を選択することが非常に重要なのです。では、最後に今日の講義で学んだことをカケルさん自身の言葉でまとめてみましょう。」
カケル「はい! 今日は、代表値と中央値の違いを学びました。代表値は、データ全体の性質を表す値で、平均値とか中央値、最頻値があります。平均値は、外れ値に影響を受けやすいけど、中央値は受けにくいこと、最頻値は、データの中で一番多い値だってことを学びました。あと、データによって使い分けが大事ってこともわかりました!今日はありがとうございました!」
テイス「カケルさん、素晴らしいまとめですね!今日の講義を通して、代表値と中央値の違いを深く理解できただけでなく、データ分析の基礎となる考え方も身につけることができたと思います。この理解は、今後より複雑なデータ分析を学ぶ上で、非常に重要な土台となるでしょう。これからも、その探究心を忘れずに、様々な知識を吸収していってくださいね。」