データ分析技術

  1. HOME
  2. データ分析技術

データ分析とは

データ分析とは

私たちの仕事であるデータ分析の目的は、簡潔に言えばデータから有用な知見を抽出して、現実の問題(弊社の場合はお客様のビジネス)に役立てることにあります。

データとは一定の形に蓄積された個別の情報の集まりであり、その根本となるものはもっと意味の薄い、無数の情報です。データ分析から得られる知見というのも、例えば最終報告書という形をとりますが、また情報であり、大きさとしてはもともとのデータに対して非常に小さなものです。私たちはお客様から大きな情報を受け取って、小さな情報をお返しするのですから、私たちの仕事に価値が認められるためには、私たちが抽出する知見が、個別の情報の集まりよりも圧倒的に濃い密度を持ち、お客様の意思決定、ひいてはビジネスの改善に有用な姿でなければなりません。

私たちはこの「情報」の流れを、H.A.Simonの分類を拡張して以下のレベル分けでとらえています。この考え方に基づくと、私たちの仕事とは一定の目的をもとに、“DATA”を分析して、“Information”を取り出し、さらに“Intelligence”へと昇華させることであります。

具体的には、データ分析は大きく下記3つに分けられます。

  1. データを抽出、加工し、一定の目的に沿って記述・表現する(Descriptive Analytics)
  2. 得られたデータを分析し、予測するためのパターンを見つける(Predictive Analytics)
  3. 見つけたパターンから将来のビジネスを改善するための有用な知見を抽出する(Perspective Analysis)

データ分析の実現には広範なスキルが必要となります。データサイエンティスト協会が発表するスキルセットの分類に基づくと、上記はそれぞれ、1.データエンジニアリング、2.データサイエンス、3.ビジネス、と対応すると考えています。

これら全てを一人の人間が賄うことは非常に困難です。また、完璧なAIがあって、自ら情報を幅広く収集して、万人が幸せになる素晴らしいソリューションを提案してくれるようなことは、少なくとも現在はありません。

そもそもビジネスからデータが蓄積されるまでにはシステムが必要であり、データ分析の目的、つまりお客様の企業としての解決すべき課題とは現場から生まれるものです。データ分析から知見が得られたとして、ビジネスが改善するまでには企業の意思決定に加えて、また現場の努力が必要です。私たちはチームとして、また会社として、お客様のビジネスの現場に寄り添い、お客様のビジネスから生まれたデータを、お客様のビジネスに還元し役立てるためのお手伝いをしています。

モデル構築

モデル構築とは

モデル構築の目的は、一定の目的に沿って整備されたデータから、予測に使える隠れたパターンを見つけ出すことです。パターンであれば何でもよいのではなく、そもそものビジネスの目的に沿うものでなければなりません。また、広い意味で「予測」でなければなりません、なぜなら、過去に成り立っていても将来は成り立つかどうかわからない知見は、将来のビジネスの役に立たないからです。

教師あり学習

モデル構築の目的が明確になるのは、予測そのものがビジネスの目的に近い場合です。例えばローン申込審査のためのリスク率予測(例1)や、廃棄ロス削減のための需要予測(例2)のような分析が該当します。このような目的には教師あり学習という手法を用います。データを収集し、過去の結果(例1では貸し倒れ、例2では売上数)と、さらに過去の情報(例1ではたとえば申込時点の情報、例2では例えば過去1月の売上数)を紐付け、過去の情報と結果の関連を機械に与え、過去の情報と結果のパターンを学習させ、情報をもとに精度よく結果を予測するモデルを作成します。この予測するべき結果を教師データといい、教師データが与えられていることからこの学習を、教師あり学習といいます。

このモデルの精度を高めることで、現在の情報から、将来の結果をより精度よく予測できれば、ビジネスの改善に役立てることができます。

教師なし学習

一方で、さまざまな事情により教師データがないケースがあります。例えば目的を見つけることが目的である場合(例えばサービスの顧客像の把握)や、教師データが確保できない場合(例えば新商品の売上予測)があります。

教師なし学習を行う場面では、目的を見失いそうになることが多く、結果を役立つものとするにはサイエンスとしての技術力だけでなく、高度なビジネス理解も必要となります。逆に言えば、ビジネスの課題を、よい教師あり学習の問題に帰着させることもまた、データ分析技術です。

統計との関係

データ分析といえば統計、という論調をよく見かけます。確かにデータ分析の手法の随所に統計の考え方があり、一定の統計への理解が必要となりますが、私たちは少なくとも古典的な統計分析と現在のデータ分析は別物だと考えています。古典的な統計分析、特に標本に基づく推測統計は、限られた標本(データ)から、母集団の性質を精度よく推定することを目指しています。現在のデータ分析のほとんどは数万件以上のデータが与えられた上で、将来のデータの挙動を精度よく予測することを目指しています。技術の進歩によりデータを大量に収集できるようになったために、古典的な統計とは別の、新しい問題に直面しています。

過学習

一般にモデルを複雑にすればするほど、精度を高めることができます。ではたとえばディープラーニングで複雑なモデルを構築すれば将来のビジネスの予測の精度を高めることができるといえば、必ずしもそうではありません。むしろビジネス上のデータ分析では答えはNOであることの方が多いと考えています。モデルの精度を高めようとするあまり、普遍的ではない特徴をつかんでしまうためです。例えば預金残高の下3桁とローンのデフォルトに関連があるかどうかといえば、おそらくないのですが、モデルを構築するデータ上、もし偶然にそのような相関がみられれば、モデルはそれを正当な特徴だと思って学習してしまいます。そして将来のデータに対して適用して、失敗してしまいます。「オッカムの剃刀」という概念によく例えられますが、モデルの精度を高めることと過学習を避けることは両立しないことが多く、悩ましい問題です。

過学習と関連して、データ分析を考える上で重要な点の一つに、「内挿」と「外挿」という問題があります。一般に内挿とは既知の数値データがある範囲の推定のことを指し、外挿はそうでない推定を指します。機械学習、特に教師あり学習は与えられたデータに基づくものですが、分析の目的は将来の予測ですから、この意味ではデータ分析は「外挿」です。モデルを構築した際には想定していなかった外れ値がどの程度入ってきて、入ってきたらどうなるのかは、機械は学習していませんから、人間が考えておかねばなりません。モデルの実用可能性の検証においては機械が出力したモデルの精度や、統計だけではなく、様々な観点が必要となります。場合によっては、精度を犠牲にしてでもモデル構築手法を制限することもあります。