ビジネスの現場で必要とされる数学基礎の具体例~データ分析編~
ビジネスパーソンにとってのデータサイエンスの基礎理論にあたる「数学」を学ぶ重要性について、業務で活用する具体例をあげて考えていきます。
大きく「データ観察・可視化・分析」「数学基礎」「アルゴリズム」「機械学習基礎」「深層学習基礎」の5つに分け、本記事では、「データ分析編」として、「データ観察・可視化・分析」「数学基礎」についてご紹介します。
※本記事記事は、「データサイエンス数学ストラテジスト[中級]公式問題集」および「データサイエンス数学ストラテジスト[上級]公式問題集」(いずれも日経BP)のまえがきの内容を再編集したものです。
データサイエンスの基礎理論にあたる「数学」
ビジネスパーソンにとって、データサイエンスの基礎理論にあたる「数学」を学ぶ意義は何でしょうか。市販されているデータ分析ツールはその中身のしくみを知らなくても使うことは可能ですし、プログラミングができなくても、AIの理論的背景を知らずともAIツールを使うことはできます。ただ、ツールは万能ではありませんし、ツールを使うことと業務に役立つことはイコールではありません。ツールを使う側がデータサイエンスの基礎理論を習得しているかどうかによって、実は大きな違いを生み出すのです。
まず、基礎理論を身につけていれば、データ分析/AIツールによる結果を的確に人に説明できるようになります。「ツールが出した結果なのでこれが正解です」と説明されても、説明を受けた側は納得できるものではありません。ツールの結果を業務に生かすには理論的背景が欠かせないのです。もう1つは、ツールをより効果的に使いこなせるようになります。世の中のデータ分析/AIツールは非常に優秀で多くの分析課題を解決することができますが、残念ながら現時点で100%の問題を解くことはできません。そこで、ツールを使う側がデータサイエンスの理論的背景を加えることで、より効果的に使うことができるようになるのです。
データ分析をするうえでとくに学んでおきたい数学の分野は、「確率・統計」「線形代数」「微分積分」です。「確率・統計」では、おもに分布を活用して、モノゴトの振る舞いを数式で表現(数理モデル化)することができます。「線形代数」「微分積分」はコンピュータを使った計算をするうえで必要な知識です。数理モデル化した問題をコンピュータに解かせるには、これらの理論を活用します。
業務で使える「データ観察・可視化・分析」
たとえば、「月間労働時間」と「会社への満足度」のデータがあり、それらの関係性を表現したいとします。このような場合、散布図による可視化が有効です。ツールを使えばマウス操作だけで、散布図をはじめとした多くの種類のグラフを簡単に作成することができます。ただし、散布図としてデータをプロットするだけでは、関係がありそうだとはわかっても、「どのくらい関係があるか」を定量的に示すことはできません。
そうした場合、回帰直線を描画してみるだけでぐっと解釈しやすくなります。y=ax+b という一次関数(y が満足度、a が回帰係数でx が月間労働時間、b が切片)によって、月間労働時間が1時間増加した場合の社員の満足度の変化を推し量ることができます。また、月労働時間と満足度の関係性が、月平均労働時間を超えている社員とそうでない社員で異なるということもありえます(みんなが残業しているならばがんばれるが、1人だけ残業をしていると不満がたまるといったイメージです)。
そうした場合、労働時間と平均労働時間の差をとることで、関係性がより鮮明に見えることもあるのです。その他にも、同じ平均でも調和平均や二乗平均が有効な場合など、そのデータに応じた前処理をしてやることで、分析結果がより精緻なものとなっていきます。精緻な分析のためには、適切な前処理を選択する必要がありますが、そのときにも理論が力を貸してくれるのです。
ビジネスにおける思考ツール「数学基礎」
つぎに、こんな例を考えてみましょう。あなたの部下に能力がまったく同じA さんとB さんがいたとして、どちらにどれだけ仕事を任せるかを決めるとします。A さんに100%でも、A さんとB さんに50%分ずつでも、どちらであっても仕事は終わるので、人であれば「決めの話だよね」と判断してしまうことができますが、コンピュータはそういうわけにはいきません。このように極めて相関の強い2変数が存在することを「多重共線性」と呼びます。コンピュータは「決めの問題だよね」と判断することはできないので、つぎの記事の「AI編」で説明する「アルゴリズム」で工夫するか、人間が最初からどちらかだけ選んでおく(どちらかを除外する)などの方法が考えられます。ちょっとしたことかもしれませんが、このようにコンピュータには苦手な分野があり、それを知っていなければ対処できず途方に暮れてしまうかもしれません。
その他、「線形代数」や「微分積分」などの考え方は、ビジネスでモノゴトを考える際の思考ツールとなります。たとえば、線形代数でのベクトルのある2点を座標上で表現すると、似たものであれば、互いに近い点に置かれ、ベクトルの向きも同じ方向になります。つまり、各点と原点を結んだ角度は0度に近くなります。一方、まったく似ていなければ90度の角度になります。このようにベクトルという表現でデータが似ているか似ていないかを図で表現することができるという特徴があります。
高校で習う微分は変化量を示すものとも考えられます。つまり、微分を計算できれば、モノゴトの変化量を把握することができます。直接的に計算しなければならない機会はあまりないかもしれませんが、そういった思考方法を身につけることで別の発想が得られるかもしれません。
数年後の新入社員はデータ分析に必要な数学基礎を学んでいる
2022年度から実施される高等学校の次期学習指導要領では数学B の「統計的な推測」に「仮説検定の方法」が加わり、数学Ⅰの「データの分析」に「仮説検定の考え方」が加わります。プログラミング教育は、すでに小学校のカリキュラムに取り入れられています。これらはデータ分析やAI活用に関係する数学基礎です。
つまり、これから5年後、10年後を想像すると、上司が学校で教わっていない数学基礎に慣れ親しんだ世代が部下として配属されるようになるのです。そうした若手と同じ土俵で会話するには、数学的基礎の用語の意味合いや使い方など、最低限の知識を身につけ、慣れておく必要があると思われます。
記事を書いた人
木田浩理
三井住友海上火災保険株式会社 データサイエンティスト
伊藤豪
三井住友海上火災保険株式会社 データサイエンティスト
高階勇人
三井住友海上火災保険株式会社 データサイエンティスト
山田紘史
三井住友海上火災保険株式会社 データサイエンティスト
安田浩平
三井住友海上火災保険株式会社 データサイエンティスト