技術者KのPython道場 6.データ解析の効果
こんにちは、技術者Kです。
前回までのPython道場の記事はご覧いただけたでしょうか?
前々回では、商品と店ごとの売上の予測をKaggleと呼ばれる、世界中のデータサイエンティストが企業や政府といった組織から
与えられる課題に対しての予測精度を競い合うプラットフォーム内の課題を通して、データ分析の流れをご紹介しました。
2013年1月~2015年10月の商品と店ごとの毎日の売上から、2015年11月の商品と店ごとの売上を予測する記事
また前回では、番外編としてデータ分析の精度向上までの流れをご紹介しました。
こちらは少し専門的な内容なので、精度のより高い分析をどうやって行っているかが気になる方に見ていただけたらと思います。
今回はデータ分析の効果についてご紹介したいと思います。
ビッグデータの分析によって得られる恩恵は、そのデータによって様々なものが挙げられます。
前々回までの売上予測の場合、売れる商品と売れない商品が分かれば、売れる商品をたくさん仕入れることで売上向上が図れます。
逆になかなか売れない商品の仕入れは少なくすることで、在庫を抱えるリスクやコストを減らすことにつながるでしょう。
あるいは、売上が好調な店舗とそうでない店舗が分かれば、人員配置を最適化することも可能ですね。
このように、ビッグデータを分析して精度の高い予測ができるようになると多くのメリットがありますが、
果たしてどれほどの効果があるのか?というのは気になるところだと思います。
そこで今回は、前々回までのデータを基にして、データを分析した場合とそうでない場合でどれほどの差が出るのかをご紹介したいと思います。
それでは見ていきましょう。
データを分析しない場合
前々回まで、2013年1月~2015年10月の商品と店ごとの毎日の売上から、2015年11月の商品と店ごとの売上を予測することに挑戦していました。
売上の履歴には、いつ、どの店舗で、何が、いくらで、いくつ売れたかの情報がまとめられていました。
もしも過去の売上履歴から来月の売上を予測しようとしたとき、皆さんだったらどうしますか?
今回は以下の2つの例をご紹介します。
- 今までの全ての売上履歴から、各店舗、各商品ごとの商品が売れた数を平均する
- 直近数か月の売上履歴から、各店舗、各商品ごとの商品が売れた数を平均する
どちらも経験則から予想できそうな方法になっています。
それでは1つずつ試していきます。
1.今までの全ての売上履歴から、各店舗、各商品ごとの商品が売れた数を平均する の場合…
スコアは1.25011と出ました。
ちなみに、このスコアは予測した商品の売れる数と実際に商品が売れた数の誤差を表します。
0に近いほど、予測精度が高いということが分かります。
そして順位は…
2021年7月1日時点で、9364位/12874人でした。
一方、2.直近数か月の売上履歴から、各店舗、各商品ごとの商品が売れた数を平均する の場合…
スコアは1.22663となりました。
先ほどのスコアより若干良くなっています。
そして順位は…
2021年7月1日時点で、8325位/12874人でした。
データを分析した場合
それでは、データを分析した場合はスコアや順位がどこまで改善されるのでしょうか?
結果は…
スコアが0.88350、順位は2021年7月1日時点で、1019位/12874人です!
データを分析しない場合と比べて、格段にスコアや順位が改善されました。
まとめ
いかがでしたか?
今回は、データ分析の効果をご紹介しました。
もちろん、扱うデータの種類によってデータの傾向や有効な分析手法などは異なるため、
あるデータで精度の高い予測ができれば他の種類のデータでも精度の高い予測が必ずできる、というわけではありません。
しかし、今回ご紹介したように、データを分析しないで何となく過去の経験則を頼りにした予想と比べると、
より精度の高いものになるのは確かだと考えます。
他にもデータを分析することで、今まで見えなかった商品の価値が分かることがあります。
ローソンでは2010年にPontaカードを分析した結果、売上31位の「ほろにがショコラブラン」は、
1割のヘビーユーザーが6割の売り上げを占めていることが分かったそうです。
もしも、データを分析せずに売上が伸びないからという理由でこの商品を販売しなくなったら、
貴重な顧客を逃すことになっていたかもしれません。
このように、データ分析には本来の目的達成以外にも新たな価値発見の機会を得るという効果もあります。
今回の記事を読んでデータ分析に興味がわいた!という方は、ぜひ身の回りのデータを改めて注意深く探してみてください。
あるいは、今までデータとして記録していなかったものを記録してみるのも良いかもしれません。
それらのデータには、まだ見ぬ「価値」が隠されているかもしれませんよ。