メニュー 閉じる

統計局の社会人のためのデータサイエンス入門を受講してみた【Week1】

 

「みなさん、データサイエンスしてますでしょうか?」

 

私は学生の頃、データサイエンティストという言葉に憧れていました。
結局、ITの会社ではなく別の職を選びましたが、
縁あって今また少し関わる仕事をすることになり嬉しいです。

実はデータサイエンティストを募集していた企業に面接に行ったこともあります。
ただ、1次面接で落とされてしまいました(笑)

さて、今回は統計局の「社会人のためのデータサイエンス入門」が流行っていると伺い、
早速、受講してみたので簡単に内容をまとめたいと思います。

 

統計局の「社会人のためのデータサイエンス入門」
https://gacco.org/stat-japan/

 

データサイエンスとはビジネスにおいては意思決定の根拠作りである

 

話は戻って、以前データサイエンティスト募集の面接で一つ学んだことがあるとすれば、
データサイエンティストはゴリゴリの理系の論理的思考が必要な職業、
という見方も一つありますが、意思決定のためのデータを扱うと考えれば、
ものすごくビジネスよりの視点が必要な職業だと気づいたことです。

 

現実はそこに気づけている人は多くないので、すぐコーディングの話になったり、
「ノンパラメトリック検定が」「MIMICSモデルが」「共分散構造分析が」と呪文を唱え始めます。

 

個人的にはデータサイエンスというとかっこいい世界のようですが、
実際最新のモデルと呼ばれる分析方法がうまく当てはまることや適切なことは少ないです。

分析自体はエクセルなり、SPSSなりRなりに投げ込めばすぐできる話で、
本質的には「仮設を立てて、データを収集し、検証する」ことが仕事の核になることが多いです。

(もちろん、分析手法ややり方を知っていたほうが腑に落ちるけれど)

 

そういう事実に気づけたのも、社会人3年目まで簡単な統計を使った仕事をして、
たくさんの企業のデータを見てきたからかもしれません。

現実は統計的には「外れ値」と呼ばれるおかしな数字がよくあることに気づきます。

これは別におかしなことではないです。

ビジネスという視点から見れば他の会社より抜きん出て業績が良いほうが良いので、
むしろ、統計的にはおかしいとされるデータを出している会社は優れているだけです。
そうでなければ市場の均衡に巻き込まれて倒産してしまうのです。

データサイエンティストが活躍できるのは彼らが分析して経営的に活かせるデータを持つような会社で、
経営のためのデータ分析者として、適切な仮説を立てて、
良質なデータを収集し、分析結果を噛み砕いて報告する。

実際にはお宝のようなデータ分析結果なんてものはほとんどないので、
意外と地味なコツコツ作業の上にかっこよさげな職業があるんじゃないかと感じます。

 

統計の前にエビデンスベースで考えるという視点を持つ

 

人間の直感というのは、正しくもあり間違ってもいます。

本来直感というのは生存本能に直結している感覚ですから、
危険を回避したり、防御したりすることに非常に敏感になります。
つまり、リスクやストレスから逃れるための本能的な行動につながっていきます。

だから、直感とデータに基づく事実は異なることもあるのです。

物理学を勉強すると時々不思議だなと思うことに遭遇します。
例えば光の速度を一定としたときに時間は伸び縮みしますね。

我々の日常には一切関係ないので意味がわかりませんね。
しかし、それは普遍の事実として科学者の間では認められています。
それは、たくさんの実験結果で理論が正しいことが分かってきたからです。

観測データで補強された現象は補強されればされるほど確からしくなります。
この考え方はデータサイエンスだけではなくて、
物理学など科学と呼ばれる分野ではどこでも同じことです。

つまり、エビデンスがあることがすべての前提として必要です。

 

社内政治に頼るなデータに頼れ
https://cocolofun.co.jp/2019/03/06/databesed-decision/

 

佐賀県の肝炎ワースト1脱却のためのエビデンスベース思考法

 

エビデンスベースで考えると言っても、いきなりは難しいですよね。
このときに大切なのは「問い」を立てることです。

例えば、

Q 金銭報酬と非金銭報酬どちらが成果を引き出すか?
Q 佐賀県の肝炎死亡率ワースト1位の原因は?どう解決するか?

このように、疑問に思ったことや確かめてみたいことを問いにします。
次に「どうしたらこの問いに答えられるか」を考えます。

そのためにデータが必要であればそれらを収集します。
次に適切な分析手法で分析し、結論づけます。

このときに「自分がこうなってほしいな」という結果が出れば良いのですが、
多くの場合、自分の期待通りのデータは出てこないと思います。
しかし、出なかった場合でも分析結果から見えることを結論づけます。

次に、その結論を元にどうするか考えます。
もう一度、どうしたらより問題を解けるような研究ができるか考え直したり、
予想外の分析結果から想定してなかった対応が必要になることもあります。

上の流れを簡単に書くと次のようになります。

 

問題発見 → 調査計画 → データ収集 → 分析 → 結論 → 具体的対応 → 効果

 

例えば佐賀県の例では具体的にこうしたエビデンスベースの考え方を使って、
肝炎ワースト1の汚名を返上したという事実があります。

調査計画 肝炎ウイルス検査で陽性となった者が治療を受けるまでの意思決定過程
データの収集 肝炎治療の受診者および未受診者に対してアンケートを実施(3200人)
分析 医師が早い段階から説明を行った方が受診率が高いことが判明
結論 医師が早い段階から肝炎ウイルス検査で陽性となったものに対して受診の効果等について説明する取組を進める必要

データの収集にはとても時間や費用がかかるので、
計画は早め早めに立てて動くことがとっても大切です。

 

データサイエンス的には年収を平均値で見るのは誤り?

 

平均値は最も代表的な数値と言えます。

昔からテストをするたびに平均が出されたり、偏差値というのも平均を50としたときに、
そこからどのくらいの階級に入っているかを見るための指標です。

 

実は平均値意外にも「代表値」と呼ばれる母集団を代表する値のとり方があります。
一つは、「中央値」、もうひとつは「最頻値」です。

中央値はすべてのデータを並べたときに真ん中のデータが持っている値、
最頻値は最も頻度が高い値、階級に幅がある場合は最も頻度が高い階級です。

 

先程の世帯年収データでそれぞれの平均値、最頻値、中央値を見てみると、

ランダムに世帯をピックアップしたときに最も出てきやすい年収は最頻値なので300から400万円
すべての世帯をならべて真ん中の世帯の年収は中央値なので556万円
すべての世帯年収を足し合わせて世帯数で割った年収は平均値なので648万円となります。

代表値として最もよく知られているものが平均値ですが、
年収の場合は0円の世帯もいれば数十億円の世帯もあるので、
こうした特別な世帯を含む平均値は生活感覚とは大きく異なってしまいます。

そのようなときは代表値に平均値を用いることは望ましくないのです。

周囲を見渡したときに最も多い世帯年収は最頻値であり、
300から400万円というのが肌感覚に近いでしょう。

そして、すべての世帯を順番に並べたときの真ん中は中央値であり556万円なのでこれもまた肌感覚に近いでしょう。
よって、年収を見たときに最もすべてのデータの代表的な特性を表す2つの代表値を見たとき、
あたりを見渡して多い年収は300万円から400万円、日本で真ん中の人は556万円となります。

 

確かに意識したことのない平均値と中央値と最頻値の使い方

 

平均というのは当たり前に使っていますが、
数学的に記述すれば「n個の観測値を足し上げて個数(n)で割ったもの」です。

母集団というのはその調査対象の集団のことで、
今回の場合、日本全国の世帯が母集団になっており、ぞれぞれ年収というデータを持っています。
よって、「日本全国の世帯の年収を足して世帯数で割る」と平均値となります。

この平均値が代表値として有効な場合はデータが山のような形になっている場合です。
これを統計学では「短鋒性」と呼びます。

Normal Distribution PDF.svg

 

 

 

 

 

 

 

 

 

 

 

 

Inductiveload – self-made, Mathematica, Inkscape, パブリック・ドメイン, リンクによる

 

データが短鋒性で分布が左右対称(正規分布)の場合には3つの代表値は完全に一致します。
左右対称ではなく左右に歪んだ分布や外れ値がある場合は、中央値で判断するほうが適切と言えます。

所得というのは持っている人はとても持っていますが、
持っていない人のほうが人数的には多いものですよね。

ですからデータの山になるピークが左に山がくる偏った形になります。
すると、最頻値が一番左に来て、次に中央値、一番左に平均値がくるのです。

高所得者の収入にひっぱられて全体の平均は高いのですが、
あたりを見渡したときに所得分布が一番多いのは300万円から400万円という人が多いのです。

ただし、ここでも感覚に惑わされてはいけません。

ここでの所得というのも実際に振り込まれる「手取り」ではありません。
ここから税金や社会保険料を支払いますので、実際手元にあるお金という見方をすれば、
最頻値的に毎月20万円から30万円程度振り込まれているという人が多いのではないでしょうか?

 

まとめ

 

今回は1週目ということで、エビデンスベースの考え方と統計データの見方の基礎でした。
代表値についての考え方は何度も刷り込むことで正しいデータの見方がわかります。

逆に言えば、同じデータから異なる結論をひっぱることができます。
仮説としてのデータ分析者の考えが違うため、異なった代表値や手法を用いるからです。

恣意的にこうした分析を行うことが必要な場合もありますが、
客観的なデータが欲しいときはなるべく教科書どおりにデータを見ることが大切です。

データサイエンティストはセクシーな職業だと言われて久しいですが、
セクシーな結論を導くためにデータを無理に解釈しすぎないよう注意しましょう。
(一方で誰も気づいていないデータの見方が新しいビジネスに繋がることもあるのですが)

 

ということで今週はこんな内容を学びました。