因果関係を見つけるのはすごく難しい
大量に集められるわけですよね。
そしたらもう完璧なデータが取れるんじゃないですか。
それ非常にいいポイントなんですがやっぱり欠点というのがあって、データの集め方の特徴から来るんですけれども、例えばコンビニエンスストアのポイントカードでデータ集めたとしますよね。
そうすると買ってる人の情報は手に入るんですけど、買ってない人の情報は集まらないですよね。
やっぱり商売やってる人からしたら、買ってない人の情報は知りたいわけですよね。
はいはい。
そこが手に入らない。
なるほど。
それともうひとつ欠点があって、これビッグデータだけに限った話ではないんですけれども、データが大量にあれば真実がわかるというわけでもないんですよね。
そういうわけじゃないんですね。
ちょっと例を出しながら説明したいんですけれども。
経営するコンビニがあるとします。
先月「雨の日にはコーヒーがたくさん売れる」というデータが出ました。
店長!このデータどう読み解きますか?
やっぱり雨が降るとコーヒーをみんなが飲みたくなる。
だから雨予報の日にはコーヒーをたくさん、発注しとくってことですかね。
そうですよね。
「雨の日コーヒー理論」みたいな話だと思うんですけど、必ずしも売り上げ増えなかったんですね。
えっ!?
なぜでしょう?
それは…実を言うとですね、コンビニエンスストアの近所にコーヒーショップがあるんですけど、このコーヒーショップで雨漏りしてて雨の日には、臨時休業してたんですね。
なるほど。
そのコーヒーショップが、コーヒーが売れないからってことやったんですね。
そうです。
で次の月は雨漏りが直ったんで、雨降っても必ずしもコーヒーの売り上げは増えなかったと。
ですから真の因果関係というのは隣のコーヒーショップが雨漏りするから、コンビニに来てたということなんですけど、でもデータからだと雨の日はコーヒーがみんな飲みたくなるんだろうと。
そういう理論も出てきてしまうわけですよね。
なるほど。
ご案内!「風が吹けば桶屋がもうかる。風が吹いたことが原因で砂ぼこりが舞った。砂ぼこりが舞ったせいで多くの人が目を悪くした。目を悪くした人は職を失い三味線を習いだした」
「はっ」
「三味線には猫の皮が使われているので猫が減る。猫が少なくなると町にはネズミが増えた。たくさんのネズミが桶をかじったので桶の需要が高まる。そして桶屋が…」
「いらっしゃいませ」
「桶屋です。もうかってます」
「これが恋の因果関係なのか…」
「桶屋です。もうかってます」
因果関係を見つけるのはすごく難しいということが、わかったんですけど因果関係はどうすれば調べられるんですかね。
ええよく使われてる方法を1つ紹介したいんですね。
「統計学」カテゴリーの関連記事