今回の記事では機械学習・データサイエンスの勉強を始めるのに最適な動画『【前編】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】』を紹介します。
”機械学習”と一言でいっても教師なしと教師あり、回帰と分類というように様々なアルゴリズムが存在します。各種アルゴリズムを基礎から体系的に学ぶことで、データサイエンティストへの一歩を踏み出してみませんか?
本講座は以下の方におすすめです!
- 一からデータサイエンスの勉強を始めたい人
- scikit-learnの各種アルゴリズムを中身を理解せずに使っている人
- 機械学習を参考書で勉強しているけど専門用語が多すぎて読み進めにくいと感じている人
【前編】米国データサイエンティストがやさしく教える機械学習超入門【Pythonで実践】
アメリカでデータサイエンティストとして活躍されているかめれおん氏の機械学習講座の第一弾です。かめれおん氏はご自身のブログやTwitterでもデータサインエス初心者向けの情報を積極的に発信しているので、これから勉強する方には必見です。本講座では回帰系アルゴリズムを題材に、Bias-Varianceのトレードオフ(超重要概念!)やscikit-learnクラスの一般的な使い方をPythonのハンズオン形式で学んでいきます。公式レビューは★4.7で、Udemyで公開されている日本語のpython機械学習講座の中で最高評価です。
それでは以下に講座内容を簡単にまとめます。
本講座で学べること
- 最急降下法、正規方程式による線形回帰の超基本
- 特徴量スケーリング、カテゴリカル変数の変換
- Bias-Varianceトレードオフの概念
- 多項式特徴量を使った非線形回帰や特徴量を正則化させるモデル(Ridge, Lasso)
まず環境構築はDockerを使うので、動画に沿って進めればpython初心者でも簡単にJupyter環境を構築でき、Dockerのため講座を通して環境が原因のエラーもありません。もちろんDockerを知らなくても最低限の説明動画付きです。
初めに最急降下法と正規方程式について数学的な理論とPythonによる実装から学びます。微分、線形代数の基本的な知識さえあれば難なく理解できるレベルです。特に最急降下法の考え方は多くのAIアルゴリズムの元となる考え方です。
scikit-learnのStandardScalerを使った特徴量の標準化や、Pandasのget_dummiesを使ったカテゴリカル変数の変換を学びます。初学者が混同しやすい標準化と正規化の違いや、学習時に問題になる”多重共線性”の回避方法を学べます。
そして機械学習分野で極めて重要な概念である”Bais-Variance trade-off”を学びます。線形回帰などのシンプルすぎるモデル(low bias, high variance)は予測精度が低くなりますが、逆に過剰適合した複雑すぎるモデル(high bias, low variance)も未知データへの予測精度が低くなり、biasとvarianceのバランスを考慮してモデルを学習させる必要があります。この考え方はシリーズの動画内でも何度も強調されているため、受講すれば自然に身につくでしょう。
講座後半では特徴量の多項式による回帰モデルの複雑化(非線形回帰)や、正則化による特徴量選択が可能な回帰モデルを学びます。正則化に関してはRidgeとLassoの違いが説明され、各特徴量が選択される様子をmatplotlibで重みを可視化しながら理解できます。
逆に本講座に含まれていない内容
- ロジスティック回帰、決定木、SVM
- 教師なし学習、クラスタリング
- ニューラルネットワーク(ディープラーニング)
ディープラーニング以外のアルゴリズムは後編や実践編で学べます。本記事執筆時点(2023年6月)では実践編として勾配ブースティング決定木を中心とした講座までが公開されており、ディープラーニングは今後に期待です。
講座を完走した感想
データサイエンス未経験の方が勉強を始めるきっかけに最適な動画と断言できます。
まずなんといっても説明がとても理解しやすいです。データサイエンスの初学者向けに丁寧に言葉をチョイスされているため、”突然出てきた専門用語の意味がわからない”という参考書あるあるも、本講座では全編通してありませんでした。また講座の構成・章立ても理解しやすいように練られている印象でした。
ハンズオンでは、直前で学んだ理論をもとに学習モデルのスクラッチ実装に挑戦するセクションもあります。エラーと闘いながら自ら考えてアルゴリズムを実装することで、記憶に定着しやすいです。
機械学習の理論を理解するための数学的背景については、少しの微分と行列の知識があれば素人でもフォローできる絶妙なレベルに留められている点も好印象です。そして理論を理解することで、論理的にアルゴリズムの選択やハイパーパラメータ調整ができるようになります。
終わりに
この講座をTwitterでたまたま知ったことから、私の機械学習への勉強モチベーションは爆上がりしました。それまでは参考書の摘まみ読みやネット記事からの情報収集でカオスになっていた頭の中が整然とされ、各アルゴリズムで特徴、チューニングすべきハイパーパラメータをしっかり理解できました。逆にこの講座を視聴した後で参考書を読むと新しい発見がたくさんあります。
値段に躊躇される方もいるかと思いますが、Twitterでほぼ常に割引クーポンが配布されています。購入の方は必ず活用してください。ただし公開から日が経つごとに割引率を下げるポリシーなので、迷っている方は急ぎましょう!
こちらの講座と併せてかめれおん氏の統計学の講座も強く推奨します。機械学習は統計学の理論の上に成り立っているため、機械学習のしっかり理解するために統計学は避けて通れません。下記の別記事で紹介していますので参考にしてください。
【Udemy講座紹介】データサイエンスの基礎となる統計学講座 by かめれおん | 素人がデータサイエンスを始める (datascience-beginer.com)
コメント