機械学習の一連の流れ

こんにちは、supercellです。Python機械学習プログラミングをまとめていきます。

 

[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

[第2版]Python 機械学習プログラミング 達人データサイエンティストによる理論と実践 (impress top gear)

 

 

今回は、機械学習の一連の流れについてです。

 

 

前処理:データ整形

データは必ずしもアルゴリズムを最適化するような形式ではないため、データを整形する必要がある。また、データの中から特徴量を抽出した後、その特徴量を同じ尺度に直す必要もある。抽出されたデータの中には、同じような分布であるものもあるだろう。

そのときは、次元削減を行う。これにより、処理能力を向上させることができる。

 

モデルの学習と選択

様々な機械学習の学習アルゴリズムが開発されているため、モデルを選択する必要がある。その際、たった一つのモデルを試すだけではそのモデルの性能が良いかどうかは判定することができない。そのため、複数のモデルを比較する。モデルの評価の際には、トレーニングセットっとは別のテスト用のデータを用意し、予測性能を評価する。

予測性能を汎化性能という。

 

ライブラリのデフォルトのパラメータでは、良い性能が出ないこともあるだろう。そのため、そのパラメータを最適化する必要がある。このパラメータをハイパーパラメータという。

モデルの評価と予測

学習したモデルを使用して、正解の値と予測値との誤差を調べる。テストデータセットにモデルを適用することで、モデルの予測性能の評価をすることができる。

 

以上が一章のまとめです。

一章は完全に読みもので、前期に学習したことの復習でした。

二章からいよいよ実装に入るので楽しみです。