投稿日: | 最終更新日:
データサイエンスの手法
Pythonでデータサイエンスしてみます。計算式は難解なものが多いですが、手法自体はそれほど多くありません。
データサイエンスとは?
データを正しく活用するには、以下の工程が必要です。
- データを収集する
- 管理する
- 整理する
- 分析する
- 予測する
このデータ活用の範囲をすべてカバーすることがデータサイエンスです。
手法は3つ
データサイエンスの手法を分類すると、大きく分けて以下の3つだけです。
- 可視化
- 集計・要約
- 学習と予測
可視化
データをグラフや表など適切な形で可視化します。視覚的に特徴をとらえ、データを直感的にわかるように表現します。
集計・要約
条件ごとにデータを集計します。全体の特徴を少数の数字で捉えることを目的とします。KPI(Key Performance Indicators)を設定し、日々得られるデータを集計して継続観察します。
学習と予測
既知のサンプルの特徴とその属性を学習してモデルを構築します。そして、新しいサンプルからその属性を予測します。主に、「機械学習」が使用されます。
機械学習の概念
機械学習(Machine Learning)とは、「データの中から規則性や判断基準を見つけ、それを使って判断し、未知のものを予測する」技術です。
ここで「学習」とは、データから特徴や判断基準を見つけ出すことです。
まず、理数モデルを仮定します。次に、そのモデルのパラメータをその観測データに合うように最適化することによりモデルを学習します。そして、その学習済みモデルを使用して新しいデータ予測したり、既知のデータの構造を理解することにつなげます。
- 理数モデルを仮定
- モデルのパラメータをその観測データに合うように最適化
- モデルを学習
- 学習済みモデルを使用して新しいデータ予測したり、既知のデータの構造を理解
教師なしと教師あり
機械学習は「教師なし」と「教師あり」の2つに分けることができます。
データサイエンスと機械学習の違い
機械学習は、データから学習することで予測・判断を自動化する技術であることに対し、データサイエンスは、データの分析や活用方法を研究する分野です。機械学習は、データサイエンスの一部という見方が有力です。
- Python 114
- 制作 54
- RaspberryPi 41
- Django 40
- WordPress 40
- Linux 27
- VPS 22
- JavaScript 21
- PHP 20
- HTML・CSS 19
- AWS 16
- 仮想環境 15
- レスポンシブデザイン 13
- マイコン 11
- WEB全般 11
- 動画製作 9
- Webサービス 8
- 統合開発環境 8
- 機械学習 8
- PyCharm 7
- jQuery 7
- AfterEffects 7
- 起業・設立 7
- Django REST framework 6
- C# 6
- デザイン 6
- SEO 6
- pydata 6
- Visual Studio 5
- 数学 5
- 携帯サイト 5
- heroku 5
- Mac 5
- illustrator 5
- node.js 5
- Anaconda 5
- Nginx 4
- Jupyter Notebook 4
- インフラ 4
- Google Colaboratory 4
- symfony 4
- Webスクレイピング 3
- photoshop 3
- Go言語 3
- PC 3
- ツール 3
- Docker 3
- facebook 3
- 作業効率化 3
- データベース 3
- Cloud9 3
- コマンド 2
- micro:bit 2
- Kali Linux 2
- Webサーバー 2
- MariaDB 2
- ドローン 2
- コンテナ 2
- DaVinci Resolve 2
- ネットワーク 2
- Java 2
- movie 2
- PCDJ 2
- 音楽 2
- XSERVER 2
- Ansible 1
- Vue.js 1
- JSON 1
- Bootstrap 1
- バージョン管理システム 1
- SSL 1
- S3 1
- ムームードメイン 1
- ネットワーク 1
- アニメーション 1
- D3.js 1
- Rhino 1
- アニメ 1
- git 1
- windows 1
- アクセス解析 1
- スマートフォン 1
- アフィリエイトノウハウ 1
- 知識 1
- TypeScript 1
- 役立つ本・書籍 1
- データサイエンス 1
- ESP32 1
- AI 1
- ownCloud 1
- API 1