Kaggleの前に・・
<モデル作成の流れ>
1.パッケージ、ライブラリのimport
2.データ読み込み
a)エンコーディング(機械学習が使えるよう変換)
・独立変数
・ワンホットエンコーダー:分類を数値化
・ダミー変数トラップ:多重共線性
・従属変数
・ラベルエンコーダー
3.探索的データ分析(EDA)
・列を変換
・
3.探索的データ分析(EDA)
4.特徴量エンジニアリング
5.アルゴリズムの学習とモデル作成
・訓練データセットとテスト用データセットの分割
・学習
6.予測
<機械学習の種類>
- 教師あり学習:入力から出力を識別・予測(連続値:回帰問題、離散値:分類問題)
- 教師なし学習:入力データそのものが持つ構造・特徴が対象、出力がない
- 強化学習:行動を学習する仕組み、目的とする報酬を最大化
<重回帰分析 変数の考え方>
1.All-in ぜんぶ使う
2.Backward Elimination 変数減少法
→ P値が有意水準よりも大きければその独立変数を除外
小さくなればモデル完成
3.Forward Selection 変数増加法
→ 最も低いP値を求める、変数を追加して改めて独立変数
でモデルを作り、p値が低い変数を見つけその値が有意
水準よりも小さければモデルに組み込み
4.Bidirectional Elimination 2.3を繰り返し行いモデル作成
5.All Possible Models 全部モデルを試す・・・
<ライブラリ>