見出し画像

デー太くんと学ぶ #02「データが公開されるまでのシステムの流れ」

期待の若手・デー太くんは、さっそく配属先で業務に取り組んでいるものの、どうやらわからないところがある様子…。
頼れる先輩・羽留(はねる)先輩がそれに気づき、デー太くんの疑問を一緒にひも解いてくれるようです。


デー太くんと学ぶ第2弾。
今回は、パネルデータが公開されるまでの流れ(集める・整える・分析する・見せる)に沿ってどんなシステムが動いているのか、という点にフォーカスします。
デー太くんと一緒に、楽しく学んでいきましょう!

前回のお話はこちらから。


デー太くん、新人研修に参加する

羽留(はねる)先輩:やぁやぁ、お疲れさま。デー太くんは配属先でさっそく業務に取り掛かっているようだけど、順調かな?

デー太くん:羽留先輩!お疲れさまです。
それが…教えてもらいながら少しずつこなしてはいるのですが、まだよくわからないことがたくさんあります!
自分の部署内のことはわかってきても、パネルデータ全体の流れに沿ってどんなシステムが動いているのかがよくわからず…。

羽留先輩:ふむふむ。私からはパネルデータがお客さまの元に公開されるまでのシステムの流れについて、まだ軽くしか話してこなかったからね~。そして、デー太くんは、うちの部署の毎年恒例、新人研修にまだ参加していないんだね!

デー太くん:は、はい…。そんなのがあるんですね。

羽留先輩:そうしたら、私がデー太くんのために、新人研修を今年も企画しましょう!

デー太くん:先輩…ありがとうございます!優しくて涙が出そうっす…!

羽留先輩:ということで、この前紹介したパネルデータが公開されるまでの流れ、【集める・【整える】・【分析する】・【見せる】に沿って、システムで行っていることについて説明するから、パネルデータ分析システムの全貌をクリアにしていこうね!

①集める:日本中の、モニターと呼ばれる協力者や協力店舗からデータを提供してもらう
整える:それらのデータを内容ごとに整えて分析に使いやすい形にデータを加工する
分析する:このシステムの中でさまざまな方法での分析ができる
見せる:最終的な見やすいグラフや数表まで作成できる

データくんと学ぶ #01より

こうしてデータは届けられます

データの命の素を集める、収集システム

羽留先輩:まずは、データの収集を担うシステムについて紹介するね。
はじめに、モニター(消費者、小売店など)のデータを集めてくるところからはじまるよ。
小売店販売データは多くのモニター店舗の大量の販売データを定期的に受信する必要があったり、消費者購買データはモニターが入力しやすいシステムにしてあげる必要があるんだ。
それぞれデータの事情も異なるので、システムは消費者用の入力システムと小売店用の収集システムを分けて用意しているよ!

デー太くん:効率よくデータを集めるためのシステムを用意しているんですね。
それにしても、消費者購買データのモニターには、とても根気がいる作業をしてもらっているのですね。自分の買ったもののレシートを日々入力するなんて、僕は骨が折れてしまいそう…。

羽留先輩:継続して入力するのはきっとかなりの労力だよね。
消費者購買データシステムのほうは、少し前までは、レシートをスキャンできる装置をモニターに使ってもらってPCに取り込みをしてもらうのをメインとしていたんだけど、最近はスマホアプリ上で完結する収集手段が増えたんだ。カメラでレシートを撮影して取り込むことで、少しでも入力の手間を減らすことを目的としているよ。

デー太くん:少しでも楽に登録作業が出来るように収集システムも刷新されているんですね、安心しました!

羽留先輩:そうそう、こうして収集システムにデータが定期的に入ってくることで、後続システムに渡るデータの命の素になっていくよ。

品質を担保する、クレンジングシステム

羽留先輩:実はね、先ほどの収集システムから受け取ったデータはそのままでは使えないんだ。
たとえば、同じ店舗から同じデータを複数回送信されてしまった場合、重複するデータを取り払ってあげたり、明らかにおかしい金額のデータを排除してあげたりと、矛盾しているデータを正しくしてあげることも必要だよね。
そんなクレンジング処理が次に必要になってくるというわけ。
また、現実的にすべての店舗や消費者の購買データを集めることは不可能ではあるんだけど、全国の実際の販売/購買データの実情に近づけるために考慮がされているんだ。

デー太くん:データを正しくしたり、データの実情に近づけたりするために技術的にハードルが高そうなことをやっているんですね…!

羽留先輩:そうだね、正しいデータを提供しないといけないから、インテージグループで長年培った多くのクレンジング技術や実際のデータに近づけるノウハウを使って、品質を担保する工夫がされているよ。

デー太くん:長年の技術があるからこそのシステムがあるんですね。

システムの頭脳、集計エンジン

羽留先輩:集めてきれいにしたデータを見ていきたいんだけど、この時点ではデータのひとつひとつは、どんな形になっていると思う?

デー太くん:販売データや購買データなので、1つのデータの単位としては、いつ、どのお店で/だれが、いくつ、いくらで売れたか/買ったかを指すと思います!

羽留先輩:そうそう!単位はその通りだね。
そして分析を進めるには、どんな割合で売れているのか、シェアはどれくらい占めているのか、そのブランドがどれくらいリピート購買されたか、などなど、データを集計してあげたほうがさまざまな切り口で分析が出来そうだよね!

デー太くん:たしかに、データをひとつひとつそのまま見るのではなく、集計してあげた数値を見れば、効率的にデータを見て分析を深めることが出来ますね!
でも、毎回分析のロジックを計算するのは大変すぎる…。

羽留先輩:そこで、きれいになったパネルデータを用いて集計を行う集計エンジンが必要になってくるんだ。
このシステムは、決められた分析の切り口のロジックに従って、集計速度を保ちつつ、正しい集計結果を出すように開発や検証を行ってるんだ。いわば、分析アプリケーションの頭脳になってくるよ!
特に新しいデータを利用した検証では、さまざまな角度から検証や負荷テストを行うことで品質を保証しているんだよ~。

デー太くん:たしかに、パネルデータ集計システムとしては、多くの計算結果を瞬時に出すことが大事だよなぁ。計算が極端に遅いシステムなんて使いにくいですもんね。

お客さまとの接点となる分析アプリケーション

羽留先輩:最後に、さきほどの集計エンジンが動く先にある、お客さまに提供をしている分析用のシステムを紹介するよ。
常に新しいデータを用いて、お客さまが見たい内容に合わせて、わかりやすい形に可視化して集計したデータの提供を行っているんだ。
いわば、この一連の流れで説明してきたパネルデータ分析システムの顔のようなものかな。ここのシステムがいまいちだとせっかくの今までのシステムで行ってきたプロセスが活きないことになってしまうのでお客さま目線からすると大事なシステムになるね。

デー太くん:たしかに、分析アプリケーションとしては、誰にとってもわかりやすく多くの人にデータを確実に提供できるかが大事だよなぁ。

羽留先輩:見た目のわかりやすさや操作のしやすさだけはなくて、手間暇かけて作成したデータを適切な人にだけ届けるセキュリティも担保しているよ。

デー太くん:たしかに誰でも見れたりしないようにだったり、転職した人が前職のデータを見れる環境だったりするのはまずいから、セキュリティも大事な要素ですね。

羽留先輩:また、データの分析に慣れているインテージグループのメンバーに対しては、より高度な分析を可能とする社内向けアプリも存在していて、お客さま向け分析アプリケーションでは集計できない切り口を提供していたりするんだ。

デー太くん:高度な分析ができる社内向けアプリと、どんな人でも分析しやすいお客さま向けアプリで、分けて提供をしているんですね。

羽留先輩:最後に、分析アプリケーションでは、常にスケジュール通りのデータ公開がされているんだけど、そのもっと前にはデータの収集からはじまる今まで説明した各々の処理があったことで、やっとお客さまにデータが届くんだ。
日々、データが問題なく、流れているのかいろんな視点やチェック方法で監視がされているよ。

デー太くん:このまえ、監視のオペレーターさんから明け方5時に電話が来ていて先輩が対応していたけど、こういった監視をしている人がいるからこそ新鮮なデータを日々届けられているんですね!

システム開発における私たちの実績

羽留先輩:いままでの話を聞いてみてどうかな?お客さまにデータが届くまでいろんなシステムがあって、各フェーズでいろんなことが行われていたことがわかったかな?

デー太くん:はい!なかなか一筋縄ではいかなさそうなクレンジング処理や集計処理が技術的に難しそうだなと思いました。

羽留先輩:長年培った技術や経験を基に行っているところは難しそうに感じるよね。ただ、すでにある仕組みを使い続けるだけではなく、常に最新の技術を組み込みながら、最適化を図るように開発メンバーは取り組んでいるんだよ。

デー太くん:聞くところによると、最近、小売店販売データが新しくなったみたいですよね!

羽留先輩:そうそう!ここ数年のニュースといえば、それが一大イベントだったね。

扱うデータ量や粒度を増やした小売店データが刷新されたことと、それに合わせて集計エンジンも刷新されたんだ。開発段階では、クリアしないといけない課題も山積みで…。
先ほども伝えた通り、集計エンジンでは処理時間の性能を担保するべく、新しい技術=Snowflakeを取り込んで試行錯誤した結果、精度の高い集計エンジンが生まれたんだよ。
もっと細かいお話は以下の記事を見てみると面白いかも!

デー太くん:すごい…!かなり難しい要求を新しい技術を取り入れることで解決に導いたんですね。Snowflakeについてもいろいろ勉強してみたいなぁ。
ぼくも今後、何らかの開発プロジェクトに入って活躍出来たらなぁ~!

羽留先輩:デー太くんなら大丈夫だよ!引き続き一緒に頑張って勉強していこうね!

今日の”ここがすごい!!”

・受信した大量のデータは、そのままでは使えないということが多々…。
そこで、受信した大量のデータはさまざまなロジックを介してクレンジング処理を行い、品質を担保している。
大量のデータを瞬時に計算する集計システムを使った分析アプリケーションを提供することで、さまざまな切り口でデータ分析が可能に。
・インテージテクノスフィアでは、常に最新の技術を取り入れて、新しいシステムを開発しており、直近では小売店購買データを扱うシステム一式の刷新が行われた。

デー太くんと学ぶシリーズはこちら!


この記事が参加している募集

みんなにも読んでほしいですか?

オススメした記事はフォロワーのタイムラインに表示されます!