かめれおん氏の機械学習講座第三弾となる『【本番編!!】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】』を紹介します。
当ブログで機械学習講座の前編、後編をすでに紹介していますので、そちらも参考にしてください。
【本番編!!】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】
アメリカでデータサイエンティストとして活躍されているかめれおん氏の機械学習講座の第三弾です。前編と後編で機械学習アルゴリズムを一通り学び、実践編では勾配ブースティングを中心とするアンサンブル型学習器や、実際のデータの前処理からハイパーパラメータの最適化といったデータサイエンスの一連の流れを学習できます。講座は各項目の理論・方法論の説明の後、ハンズオン形式のコーディングを学ぶ形式となっています。公式レビューは★4.7で、Udemyで公開されている日本語のpython機械学習講座の中で最高レベルの評価です!
以下で内容をより詳しく紹介していきます。
本講座で学べること
- アンサンブル学習器の基本
- 勾配ブースティングの理論と実践的な勾配ブースティング決定木3つ
- Pipelineを活用した様々な欠損値代入法によりデータ前処理
- 特徴量エンジニアリングと特徴量選択による学習精度の変化
- ハイパーパラメータのチューニング方法(Grid search, Random search, ベイズ最適化)
いつも通り学習環境は講師が用意したDocker環境を使いますので、最低限のスペックのPCさえ用意してあれば環境構築には困りません。こちらのDocker環境には必要になる外部ライブラリーはすべてインストールされているため、バージョン違いによるエラーもありません!
講座の初めはアンサンブル系の学習器の基本となるランダムフォレストやバギングから学び、次にアンサンブル学習器を発展させた勾配ブースティング決定木(Gradient Boosting Decision Tree: GBDT)を理論から学びます。GBDTの数学的な理論は相当にレベルが高いのですべて理解することは難しいと思いますが、残差を目的変数として学習していくという要点だけでも抑えておけば十分だと自分は納得しました。さらに現在もKaggleでバンバンに使われているGBDTのXGBoost, LightGBM, CatBoostも学びます。
アルゴリズムの勉強はここまでで、後半ではデータサイエンスの一連の流れを順を追って解説されます。pandasとscikit-learnを駆使してEDA、欠損値対応、データエンジニアリングの後、モデル学習を行いながらデータ選択とハイパーパラメータチューニングを組み合わせて評価精度を向上させていく流れを学習します。
本講座では学べないこと
本講座はGBDTとデータサイエンスの一連の流れの学習中が中心となっており、回帰、サポートベクターマシン、決定木、PCA、クラスタリングなどの個々のアルゴリズムの説明はありません。これらを学習したい方は前編や後編の購入を検討してみてください。
受講後の感想
良かった点
GBDTに関する数式を使った説明があり、アルゴリズムの背後にある数学的な概念を深く理解できる点が素晴らしいです!このレベル数学になると教養がない人間が書籍やウェブ情報の自分で勉強してもまず理解できないと思います。完璧には理解できなくても、各アルゴリズムの特徴や違いを少なくとも雰囲気として理解することができ、アルゴリズム同士の比較や選択肢の理解がより容易になります。
後半ではデータの前処理、データエンジニアリング、モデル学習、評価をpipelineクラスで実装する機械が何度もあるため、今まで学んだ内容を総合的に復習できる点も非常によかったです。実際にデータセットを入手しだけど何から着手していいのかわからない、という方には大変おすすめできる内容です!
全体を通して課題形式で直前に学んだアルゴリズムを実装するレクチャーがあり、理論理解とコーディング力の試験になります。かめ氏の他の講座よりも大規模な課題が多く、自ら考えて実装することでアルゴリズムの理解度を確認でき、学習内容が確実に定着します。
気になった点
- 補足テキストがない言い間違えがある
- 前編・後編の受講が前提となっている
レクチャー中の言い間違えの多くには補足説明テキストが表示されるようになっていますが、すべての間違いに補足テキストの追加されていないところもあるため、少し混乱するところがありました。
また前編と後編を学習済みであることが前提となっているため、前編後編で紹介されたアルゴリズムに関しては詳しい説明はありません。機械学習を体系的に学びたい方はセットで前編後編の購入も検討してみてください!
一方で実践的な内容は網羅されている本講座が最も重要なので、時間とお金を節約して要点だけ学びたい方には本講座だけでも十分に思えました。
講師クーポンの配布
また本講座はUdemyのセール対象外かつUdemy Business対象外ですが、かめ氏はTwitterでほぼ常時講師クーポンを配布されています。購入の方は必ずチェックしましょう!
終わりに
今後データサイエンスを本業で活用していきたい人間としては絶好の講座でした!私自身は今まで学んだ内容を武器にKaggleに挑戦してみようと思っています。
かめ氏は今後ディープラーニング編の講座を公開される予定なので、そちらも要チェックです。
コメント