ホーム >  Python >  データサイエンスの手法


Posted:2017/10/16 9:00:10 AM|Category : Python

データサイエンスの手法

Pythonでデータサイエンスしてみます。計算式は難解なものが多いですが、手法自体はそれほど多くありません。

データサイエンスとは?

データを正しく活用するには、以下の工程が必要です。

  • データを収集する
  • 管理する
  • 整理する
  • 分析する
  • 予測する

このデータ活用の範囲をすべてカバーすることがデータサイエンスです。

手法は3つ

データサイエンスの手法を分類すると、大きく分けて以下の3つだけです。

  • 可視化
  • 集計・要約
  • 学習と予測

可視化

データをグラフや表など適切な形で可視化します。視覚的に特徴をとらえ、データを直感的にわかるように表現します。

集計・要約

条件ごとにデータを集計します。全体の特徴を少数の数字で捉えることを目的とします。KPI(Key Performance Indicators)を設定し、日々得られるデータを集計して継続観察します。

学習と予測

既知のサンプルの特徴とその属性を学習してモデルを構築します。そして、新しいサンプルからその属性を予測します。主に、「機械学習」が使用されます。

機械学習の概念

機械学習(Machine Learning)とは、「データの中から規則性や判断基準を見つけ、それを使って判断し、未知のものを予測する」技術です。

ここで「学習」とは、データから特徴や判断基準を見つけ出すことです。

まず、理数モデルを仮定します。次に、そのモデルのパラメータをその観測データに合うように最適化することによりモデルを学習します。そして、その学習済みモデルを使用して新しいデータ予測したり、既知のデータの構造を理解することにつなげます。

  1. 理数モデルを仮定
  2. モデルのパラメータをその観測データに合うように最適化
  3. モデルを学習
  4. 学習済みモデルを使用して新しいデータ予測したり、既知のデータの構造を理解

教師なしと教師あり

機械学習は「教師なし」と「教師あり」の2つに分けることができます。

データサイエンスと機械学習の違い

機械学習は、データから学習することで予測・判断を自動化する技術であることに対し、データサイエンスは、データの分析や活用方法を研究する分野です。機械学習は、データサイエンスの一部という見方が有力です。


トラックバック用のURL
プロフィール

名前:イワサキ ユウタ 職業:システムエンジニア、ウェブマスター 誕生:1986年生まれ 出身:静岡県 特技:ウッドベース 略歴 2008年04月 金融機関系I

最近の投稿
人気記事
カテゴリー
広告