Kaggle

Kaggleの前に・・

<モデル作成の流れ>

1.パッケージ、ライブラリのimport

2.データ読み込み

 a)エンコーディング(機械学習が使えるよう変換)

  ・独立変数

   ・ワンホットエンコーダー:分類を数値化

    ・ダミー変数トラップ:多重共線性

  ・従属変数

   ・ラベルエンコーダー

3.探索的データ分析(EDA)

    ・列を変換

    ・

3.探索的データ分析(EDA)

4.特徴量エンジニアリング

5.アルゴリズムの学習とモデル作成

  ・訓練データセットとテスト用データセットの分割

  ・学習

6.予測

<機械学習の種類>

  • 教師あり学習:入力から出力を識別・予測(連続値:回帰問題、離散値:分類問題)
  • 教師なし学習:入力データそのものが持つ構造・特徴が対象、出力がない
  • 強化学習:行動を学習する仕組み、目的とする報酬を最大化

<重回帰分析 変数の考え方>

1.All-in ぜんぶ使う

2.Backward Elimination 変数減少法 

  → P値が有意水準よりも大きければその独立変数を除外

    小さくなればモデル完成

3.Forward Selection 変数増加法

  → 最も低いP値を求める、変数を追加して改めて独立変数

    でモデルを作り、p値が低い変数を見つけその値が有意

    水準よりも小さければモデルに組み込み

4.Bidirectional Elimination 2.3を繰り返し行いモデル作成

5.All Possible Models 全部モデルを試す・・・

<ライブラリ>

sklearn