メニュー 閉じる

平均から先がわからない人のための統計学【社会人のためのデータサイエンス入門Week2】

 

「データサイエンス楽しんでいますでしょうか?」

 

先週は平均値、中央値、最頻値と政府統計について学びました。

たかが平均値ですが統計では最も重要な代表値ですから、
ここからすべてが始まると言っても過言ではありません!

ちなみに、データサイエンスを大学で学びたいと思ったときにどういう学校があるのか調べてみました。
滋賀大学や横浜市立大学のデータサイエンス学部は有名ですが、
データサイエンスを学べる大学は日本にたくさんあるんですね。

 

【2019年度大学受験】データサイエンスを学べる学部の志願状況

また、世界的に見ても大学にデータサイエンス専攻が設立される流れがあります。

中国では北京大学、清華大学、北京航空航天大学、浙江大学、武漢大学などなど、
文科系大学、理科系大学問わずデータサイエンスが学べる大学が増えています。

アメリカの大学はより実学的な専攻が多いですから、
当然名門大学もデータサイエンス専攻を作っています。

純粋なデータサイエンスやコンピュータ・サイエンス専攻も増えてますが、
ビジネスデータ分析に特化したビジネススクールの専攻も増えています。
https://www.topuniversities.com/university-rankings/business-masters-rankings/business-analytics/2019

 

大学に行く必要があるのかと言うと難しいところではあります。
単に知識をつけたいというだけであればCourseraやedXといったMOOCsでも良質な講義が受けられます。
大学に通わなくても興味関心に従って実際にデータを分析してみるのが大切です。

個人的に今高校生なら広い視野を持つためにミネルバ大学は面白そうだなと思います。
アメリカの大学の通信課程もありですね。働きながらというのもありです。(めっちゃつらいけど)

日本なら情報経営イノベーション専門職大学(iU)という新しい大学が面白そうですね。

勉強って基本苦手意識があったのですが運良く大学に入り、運良くいい仲間、先生に出会えたので、
調べることや学ぶことが好きなんだということに気づけたりしました。

勉強と言っても、受験勉強の延長だと考えるとしんどいですよね。
でも、知ってますか?

 

数学者だからって計算が早いわけじゃない。
応用数学って難しい数学では無いし、応用物理って難しい物理ではないんです。

 

人は自分の見たいように世界を見るので、数学ができないと数学者になれないとか、
応用がついているから難しい問題なんだと自己洗脳して生きています。

しかし、本当はそうではありません。人によって自分にあう勉強は違うので、
大学に通う意味があるとすれば自分の好きな学びを見つけることです。

最終的に、学校で習う習わない限らず、好奇心にまさるものは無いと思います。

 

統計的データを見る際にグラフを書いてみることは大事

 

さて、まだWeek1を見ていない方はぜひ見ていただきたいのですが、
やはりデータを見る際には、平均値、中央値、最頻値という基本の代表値は大切です。

この中でも最頻値は階級幅によって変化するので注意が必要です。
左右対称ではないデータというのもありますし、
ヒストグラムを使いながら見ることで適切な代表値を使えるようになりましょう。

 

超余談ですが、簡単そうな最頻値の定義もシビレますね。

 

「離散確率分布の最頻値は、確率質量関数が最大となる値である。」
「連続確率分布の最頻値は、確率密度関数が最大となる値である。」

 

「定義がまどろっこしい!」

 

離散というのは「とびとび」ということです。連続というのはそのまま連続するということです。
つまり、飛び飛びの値を取ろうが連続する値を取ろうが、
変数がある値をとる確率を関数とした、確率質量関数もしくは確率密度関数が最大になる値が「最頻値」なのです。

最も頻繁に出現しやすい値というものは単純そうですが、
最頻値は必ずしも一つだけとは限らないということもわかります。(一瞬えっ!と思いますが)

ちょっと掘り下げて考え「なぜ最頻値では連続確率分布を考えているのか」と言うと、
数字が連続している場合、最も出現しやすい値が定まらないのです。

だから、区分ごとの頻度を表すヒストグラムという表を作り、
最頻値を導くということが必要になるんですね!

 

前回扱った世帯年収データで言えば「300万円から400万円が最頻値」というのは、
100万円単位で階級幅を作ったときの最頻値ということになります。

階級幅を1000万単位にすると最頻値はいくつになりますか?
「0万円から1000万円」となりますが、このデータに意味は無いですよね。でも事実です。

データをよく見て意味のある代表値を選択するというのは実はかなり知的作業な反面、
結構恣意的にデータを解釈できちゃったりするということがわかります。

 

データの散らばりを数値で表すにはどうする?

話は戻りまして、例えばWeek1でも用いた世帯年収のデータを見てみましょう。
平均からの差を「偏差」と言います。

よく耳にする「偏差値」というのは、平均からどのくらい離れているかを示す値ですが、
これについてはまた後ほどご紹介します。

偏差は平均からの差ですから、マイナス方向に差ができる人もいれば、
プラス方向に差ができる人もいます。そして当然全員の偏差を足すと0になってしまいます。

例えば[ 2, 5, 7, 3, 0 ]というデータの平均は、2+5+7+3+0 ÷ 5 = 3.4となります。
それぞれのデータと平均との差を取ると、[-1.4, 1.6, 3.6, -0.4, -3.4]、
全部の偏差を足すと0になります。

世帯年収のデータを見ると、偏差が大きい世帯もあれば小さい世帯もあるのは当然ですよね。
標準的な偏差の値ではヒストグラムの半分くらいをカバーするイメージです。

 

偏差値は平均を用いるため正規分布の場合に限って有効

 

ちなみに、偏差値という用語は学生時代ひっついて回った数字ですよね。
偏差値70を取れる教科は自信が持てましたし、50以下だとがっかりしたり

 

「大学生になればもう偏差値とはおさらば!」

 

だと思っていたのですが就職で受ける知能テストみたいなものも、
実は偏差値が計算されており、結局就職でも偏差値なんですね…
(私はテストが嫌だったので適当にボタンを押してました)

 

そんなことはとりあえずおいておくとして、偏差値を導くにはまず平均値が必要です。
次に平均との差である偏差を導きます。
そして、その偏差を二乗して、分散を計算し、平方根を取ることで標準偏差を導きます。

 

こうして書くと難しそうですが思い出してください。
難しくないですよ!偏差は単に平均からの距離です。
一番早いのは具体的な数値を出してみることですね。

 

ちょっとやってみると、例えば[ 2, 5, 7, 3, 0 ]というデータでは、平均が3.4です。
偏差(値から平均値を引いたもの)が[-1.4, 1.6, 3.6, -0.4, -3.4]
偏差の二乗[1.96, 2.56, 12.96, 0.16, 11.56]
分散(偏差の平均)は5.84となります。
標準偏差(分散の平方根)は2.417となります。

 

偏差値とは、この平均との差(偏差)を10倍し、標準偏差で割り、50を足した値です。
これによって平均が50になるよう調整されることになります。

つまり、最初の2というデータの偏差値は、
-1.4(偏差)* 10 ÷ 2.417(標準偏差) + 50という計算になり、44という偏差値が導出されます。

偏差を標準偏差で割ることで「標準化した値」としていますね。
平均を0として標準偏差を1とする作業というわけです。

そして、50を0とする作業を行うことで平均(偏差0)を50にする作業をしたのです。
この時、偏差値40から60の間に約68.3%のデータが含まれます。

平均を基準にしているということは、
正規分布の場合のみ、偏差値50(つまり平均点)を取る人が最も多いわけです。
逆に言えば、正規分布ではない場合偏差値50であっても集団の中で、
上の方や下の方に属する可能性はあります。

 

【統計学】初めての「標準偏差」(統計学に挫折しないために)
https://qiita.com/kenmatsu4/items/e6c6acb289c02609e619

 

中央値を用いてデータの散らばりを見てみよう

 

中央値というのは、データ全体をちょうど半分に分ける値と習いました。
第1四分位というのはデータを4分割したときの1つ目の分割するところの値です。

つまり、四分位範囲というのは中央値を基準としたデータの見方なんですね。

これをもっと見やすくするのに箱ひげ図というものを使います。
箱ひげ図は複数の分布を並べて表現することができます。

Elements of a boxplot en.svg
By Ruediger85 (changed language). Original by RobSeb (Own work) [CC-BY-SA-3.0 (https://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons – http://upload.wikimedia.org/wikipedia/commons/b/b1/Elements_of_a_boxplot.svg, CC 表示-継承 3.0, リンクによる

 

四分位というと4分割することが前提になっていそうですが、
必ずしも4分の1にする必要はありません。

例えば下から10%の値を10パーセントタイルと言ったり、
下から99%の値を99パーセントタイルと言ったりします。

そして、ほとんどの17歳男子はの身長は160センチから180センチの間(95パーセントタイル)に含まれています。

 

今回は長くなりますのでこの辺にします

 

次回は「共分散」と「相関」という重要なポイントです。
また、応用統計学(統計学を使っている学問という意味)では必須の分析、回帰分析についてもつながっていきます。

少しだけ「何に使えるのか」をご紹介すると、
回帰分析を行うことで予測値をできるかぎり正確に予測できるようになります。

もちろん、データによっては適切な予測ができないこともありますが、
今のデータサイエンスはこうした回帰分析をコンピュータを用いて、
力技で関係性を導き出すようなものもあります。

今回はあくまで入門ですから、予測変数(説明変数・独立変数)がどのように、目的変数を導くか、
つまり、xというデータがyをどれだけ説明するのかについて考えます。

 

「その回帰分析でどれだけ説明できるのか?」

「統計調査を行う際に抽出する標本はどれだけ正確なのか?」

 

次回は、こうした点についてご紹介していきたいと思います!
もちろん、社会人のためのデータサイエンス入門のほうを受講されればもっとすんなり理解できますので、
お時間があればぜひ受講してみて下さい。