データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!

ビッグデータ、データサイエンス、人工知能など、統計学を主軸においた分野が隆盛ですが、統計学には高いハードルを感じる方も少なくないでしょう。k平均法を実際に手を動かしながら理解することで、データ分析を身近に感じることができます。

データサイエンティストによる統計入門 ― k平均法でデータをクラスタリングしてみよう!

はじめまして、藤井健人@studiesと申します。イタンジ株式会社でデータ基盤周りの運用を担当しています。

「ビッグデータ」「データサイエンス」「人工知能」といったバズワードに代表されるように、統計学を主軸においた分野の隆盛が日常となって久しいです。

しかし「統計学は学問的な要素があり難しい」という印象を持たれやすく、「実務に活かすのはハードルが高い、怖い」と感じる方も少なくないのではないでしょうか。

そういった方を対象に、今回は統計学の手法の一つであるk平均法を学んでいただきたく筆をとりました。

Webエンジニアが統計を学ぶことで、以下のようなメリットが得られると筆者は考えます。

  • エンジニアは、他職種と比較してデータに近いポジションであるため、気軽にデータを取得して、触り、仮説を検証することができる
  • 統計学を駆使することで、より確度の高い開発方向を決める指針が得られる
  • 機械学習といった、統計学を応用した技術の基礎理解に役立つ

本稿は次の3部からなり、ソースコードをもとに手を動かしながら理解を深められる構成となっています。

  1. 理論の概要を学ぶ
  2. ゼロからロジックを実装する
  3. ライブラリを扱ってみる

本稿を通じてテータ分析、ひいては統計学をより身近に感じていただき、実務への心理的な壁を壊す手助けになれば幸いです。

PythonとJupyter Notebookの環境を用意する

エンジニアHubに会員登録すると
続きをお読みいただけます(無料)。
登録のメリット
  • すべての過去記事を読める
  • 過去のウェビナー動画を
    視聴できる
  • 企業やエージェントから
    スカウトが届く