Study AIラビットチャレンジ機械学習

StudyAI ラピッドチャレンジレポート課題
機械学習

線形回帰モデルの要約
線形回帰モデルとは
回帰問題を解くための機械学習モデルの一つで教師あり学習に分類される。入力とm次元のパタメータ（回帰係数）の線形結合を出力するモデル。
m=1（パラメータが1つ）の時は単回帰モデル、m≧2（パラメータが2つ以上）の時、重回帰モデルと呼ばれる。
線形結合
出力
（目的変数）
パラメータ
（回帰係数）
入力
（特徴量）
幾何学的意味（m=1）
誤差
幾何学的意味（m=2）
※線形結合の誤差はパラメータと特徴量で表現できなかった
予測と実績の差分に相当する。仮にモデルに必要な特徴量が
足りない場合、不足する特徴量によって求められる値は誤差に
含まれることとなる。
線形回帰モデルの行列表現
連立方程式での表現
行列表現
入力と出力は与えられるデータに対応。未知の値とな
るパラメータは最小二乗法により求められる。
最小二乗法によるパラメータの算出
学習データの平均二乗誤差を最小とするパラメータを探索。平均二乗誤差の最小化はその勾配が0になる点を
求める（平均二乗誤差を表す関数※の微分値がゼロになる点を求める）※関数は下に凸である前提
最小二乗誤差：
MSEを最小にするような
パラメータの集合：
パラメータの算出過程
行列の演算のための転置
予測値実績値
ωで微分すると0
逆行列
パラメータの算出結果
＜回帰係数＞
＜予測値＞
※誤差を正規分布に従う確率変数を仮定し尤度関数
の最大化を利用したパラメータ推定も別解として可能

機械学習における内挿・外挿について
内挿・外挿とは
線形回帰モデルに限らず、機械学習モデルで、訓練データの範囲内で出力を求めることを「内挿」、範囲外で求めることを「外挿」と呼ぶ。機械学習モデルは、原理的に
内挿は得意（予測精度が高い）だが、外挿は苦手（内挿と比較して予測精度が大きく落ちる）。
内挿・外装のイメージ
入力データ
出力データ
内挿
（学習データあり）
外挿
（学習データなし）
外挿
回帰式
左図は、青丸が、学習データにおける入力データ（説明変数x）と教師ラベル（目的変数y）を点と
してプロットしたものである。青色の実線で示されている回帰式（訓練済みの機械学習モデル）は、あ
くまでこの青丸が存在する範囲内でしか訓練されていないことになる（＝内挿）。回帰式を見ると、訓
練されていない範囲でもこの機械学習モデルは予測が可能なように確かに見える（＝外挿）。しかし、
その範囲外、具体的にはオレンジ色の領域は、この機械学習モデルでは正しく予測できない可能性が
高い。オレンジ色の領域も正確に予測するには、あらためてオレンジ色の領域のデータも含めて再学習
を行い、オレンジの領域のデータを内挿の範囲内にする必要がある。
検証により予測
精度が担保できる
予測精度の
担保ができない
予測精度の
担保ができない
参考HP:https://atmarkit.itmedia.co.jp/ait/articles/2008/26/news017.html
時系列予測おける内挿・外装の注意点
時系列予測の場合、グラフの見た目から内挿の範囲を間違えやすいので、注意が必要。例えば現在の湿度と日照時間という入力データから、12時間後の気
温を予測（＝出力）する機械学習モデルの場合、訓練データ（湿度／日照時間という入力データと、気温という教師ラベル）の数値の範囲内か範囲外
かが内挿・外挿の対象となる。時系列のグラフを描いた場合、横軸が「時間」になっているので、過去データが範囲内（内挿）で未来予測が範囲外（外
挿）と勘違いしやすいが、これは間違いである。

非線形回帰モデルの要約
非線形回帰モデルとは
一般的にデータの構造を線形でとらえられる場合は限られるため、複雑な非線形構造を数式で表現することが必要。回帰関数として、基底関数と呼ばれる既知の非線
形関数とパラメータベクトルの線型結合を使用することで非線形構造の表現が可能（基底展開法）。
非線形モデルの一般式
基底関数誤差
よく使われる既定関数多項式規定関数ガウス型規定関数
非線形回帰モデルにおける行列表現
規定展開法により表現された非線形回帰も線形回帰と同じ
枠組みで推定可能
未学習(underfitting)と過学習(overfitting)
・学習データに対して、十分小さな誤差が得られないモデル→未学習
・小さな誤差は得られたけど、テスト集合誤差との差が大きいモデル→過学習
未学習はより表現力の高い
モデルの使用により改善。過
学習は学習データの増加、
不要な基底関数の削除、
正則化法の利用により改善
が見込まれる。
汎化性能
学習に使用した入力だけでなく、これまで見たことのない新たな入力に
対する予測性能。学習誤差ではなく汎化誤差(テスト誤差)の小さい
モデルが実運用においては良いモデルとなる。汎化誤差は学習データとは
別に収集された検証データでの性能を測ることで推定される
訓練誤差テスト誤差
学習誤差
訓練誤差
test
train
学習誤差
訓練誤差
学習誤差
訓練誤差
test
train
test
train
未学習過学習
適切

モデルの汎化性能に関する考察
過学習の抑止方法
①不要な基底関数（特徴量）を削除
・基底関数の数、位置やバンド幅によりモデルの複雑さが変化
・解きたい問題に対して多くの基底関数を用意してしまうと
過学習の問題がおこるため、適切な基底関数を用意
②正則化法（罰則化法）
・モデルの複雑さに伴って、その値が大きくなる正則化項(罰則項)を
課した関数を予測式に追加
③データ数を十分に増やす
正則化のイメージ図
L2正則化（Ridge推定量）
L1正則化（Lasso推定量）
最小二乗法の解
（誤差の最小値）
損失関数の等高線
正則化項の範囲
正則化による過学習の変化
⇒損失関数（MSE)と正則化項の和が最小値となるような解を求める
基底関数:50
（サンプル数10000）
・基底関数を増加させるとモデルの表現力が上がるが、過学習が進む。
・正則化項を入れると基底関数の増加に伴った過学習が抑止される。
・データ数を増やせば、規定関数が多くても、正則化項の有無にかかわらず過学習しない。
バイアス・バリアンス分解
損失関数の期待値は、バリアンスとバイアス（とノイズ）の和であり、バイアスとバリアンスが
両方共なるべく低い位置で正則化を決めることで、新規データに対する誤差も小さくなる。
（バイアスとバリアンスの和と、新規データに対する誤差との差がノイズの項で現れる）
バイアス・バリアンスについて
バイアス
予測値と真の値(正解値)とのズレ(偏り誤差)。
モデルが単純であるあまりに学習が上手く
いかない（未学習）度合を表す。
バリアンス
予測値の広がり（ばらつき誤差）。
訓練データに依存し過ぎることで新しいデータ
への予測が悪化する（過学習）度合いを表す。
※バイアスとバリアンスはトレードオフの関係にある
バイアス・バリアンスのイメージ図
参考HP:https://wimper-1996.hatenablog.com/entry/2020/02/22/220558
https://www.hellocybernetics.tech/entry/2017/01/24/100415

ロジスティック回帰モデル

ロジスティック回帰モデルの要約
ロジスティック回帰モデルとは
ある入力（数値）からクラスに分類する分類問題に適用されるモデル（出力が0,1の場合は2クラス分類問題、出力が3クラス以上の場合は多クラス分類とされる）。
ロジスティック回帰モデルでは入力とm次元のパラメータの線形結合をシグモイド関数に入力。出力はy=1（※2クラス分類問題）になる確率の値で出力される。
ロジスティック回帰モデル（2クラス分類）の概要
ロジスティック回帰モデルのイメージ図
係数によるシグモイド関数の形の変化
・aを増加させると，x=0付近での曲線の勾配が増加
・aを極めて大きくすると，単位ステップ関数に近づく
シグモイド関数の性質
シグモイド関数の微分は、シグモイド関数自身で表現することが可能
シグモイド関数とは
・入力は実数・出力は必ず0~1の値であり、出力は確率と同義
・単調増加関数であり、a（xの係数）が変わると形が変わる
シグモイド関数：
ロジスティック回帰の数式表現
⇒ 一般にはデータYの出力（確率）が0.5以上なら1、未満なら0に分類
ただし分類の閾値は人間が決める値のため、問題に応じて柔軟に設定することが必要

分類問題の評価指標について
混同行列（confusion matrix）
各検証データに対するモデルの予測結果を4つの観点(表)で分類し、それぞれに当てはまる予測結果の個数をまとめた表。
正答率（accuracy）
表情から怪しい人物を検知する動画分析ソリューションの例
正解した数/ 予測対象となった全データ数。分類したいクラスに偏りがある場合、単純な正答率はあまり意味をなさない。
正答率 =
例）メールのスパム分類
スパム数が95件、普通のメールが5件であった場合、全てをスパムとする分類器の正解率は95%
再現率（recall）適合率（Precision） F値（F score）
・「本当にPositiveなもの」の中からPositiveと
予測できる割合(NegativeなものをPositiveと
してしまう事象については考えていない)
・「誤り(False Positive)が多少多くても
抜け漏れは少ない」予測をしたい際に利用
再現率＝
・モデルが「Positiveと予測」したものの中で本当に
Positiveである割合(本当にPositiveなものを
Negativeとしてしまう子については考えていない)
・見逃し(False Negative)が多くてもより正確な
予測をしたい際に利用
適合率＝
・再現率と適合率はトレードオフの関係にあり、どちらかを
小さくすると、もう片方の値が大きくなってしまうため、
再現率と適合率のバランスをとるため、調和平均を
F値として評価指標とする
・高ければ高いほどRecallとPrecisionがともに高くなる
F値

主成分分析・k近傍法・k-means

各手法の要約
主成分分析とは
相関のある多数の変数から相関のない少数で全体のばらつきを最もよく表す主成分と呼ばれる変数を合成する多変量解析の一手法。
データの次元を削減するために用いられる。
主成分を与える変換は、第一主成
分の分散を最大化し、続く主成分は
それまでに決定した主成分と直交す
るという拘束条件の下で分散を最大
化するようにして選ばれる。
寄与率
第k主成分の分散の全分散に対する割合。第1-k主成分まで圧縮した際の
情報損失量の割合は累積寄与率と呼ばれる。
k近傍法（kNN）とは
与えられた学習データをベクトル空間上にプロットしておき、未知のデータが
得られたら、そこから距離が近い順に任意のk個を取得し、その多数決で
データが属するクラスを推定するというアルゴリズム。
k-meansとは
与えられたデータをk個のクラスタに分類するクリスタリング手法（教師なし学習）
・kの値が変わると結果が変わる
・kを大きくすると決定境界は滑らかになる
k-meansのアルゴリズム
① 各クラスタ中心の初期値を設定する
② 各データ点に対して、各クラスタ中心との距離を計算し、最も距離が近いクラスタを割
り当てる
③ 各クラスタの平均ベクトル（中心）を計算する
④ 収束するまで2, 3の処理を繰り返す
・中心の初期値を変えるとクラスタリング
結果も変わりうる
・kの値を変えるとクラスタリング結果も変わる
k=3(初期値近い） k=3(初期値遠い） k=5

サポートベクターマシン

サポートベクターマシンの要約
サポートベクターマシン（SVM）とは
分類や回帰などの問題に適用できる機械学習モデルの一つで、データを2つのクラスを分離する超平面（2次元の場合は直線）のうち、各データからも離れているものを
決定する手法。教師あり学習モデルの一つ。SVMではデータ群の分類境界となる線（面）に最も近いデータ点（サポートベクター）からの距離（マージン）を算出し、
両クラスのサポートベクターからの距離が最も遠くなる（マージンが最大となる）線（面）を選択する。
マージンの最大化
同じ訓練データに対する2種類の分類境界。
(B)の分類境界の方がマージンが大きい。
決定関数
2クラス分類問題で、特徴ベクトルxがどちらのクラス
に属するか判定するために使用される関数を決定関
数という。sgnは符号関数と呼ばれる関数で、引数
が正の場合には+1、負の場合には1を返す。決定
関数に定められる境界を分類境界と呼ぶ。
決定関数の表す平面(超平面)
カーネルを用いた非線形分離への拡張
線形分離できないデータについてはデータを高次元に拡張（写像）することで線形分離が可能になるケースが存在。高次元に拡張する際、計算量が莫大となるが、カーネル関数と
呼ばれる関数で置き換え、計算コストを大幅に削減する。これをカーネルトリックと呼ぶ。
入力データを高次元空間(特徴空間)に拡張すると線形分離
(平面による分離)が可能になる
写像：
高次元に写像した特徴空間上での目的関数：
カーネル関数：
カーネル関数(内積なのでスカラー)を用いることで、2つのφ(x) (ベクトル)を直接
計算することなく内積を見積もることが可能となる。これにより特徴空間が高次元
の場合でも、双対問題を解く計算コストを大幅に削減することができる。

サポートベクターマシンの回帰分析への応用
サポートベクター回帰（SVR）について
サポートベクターマシンによる分類（SVC）と同様にサポートベクトルを用いて回帰問題を解くことが可能。サポートベクトルを使うSVRはロバスト性が高いという
特徴がある。SVCと異なる点として、SVRではε-不感損失関数を使用する。
SVRは回帰問題なので線形回帰と同じように誤差を計算するが、誤差がある一定値εを超えるまでは0と扱うε-不感損失関数を
使用し、−ε<誤差<εの範囲のデータ点は誤差評価の対象としない。この−ε<誤差<εの範囲はεチューブと呼ばれる。そしてこのε
はエンジニアが事前に値を決めておく必要のあるハイパーパラメータとなる。
サポートベクターマシンでは重み係数ベクトルの最小化も行っているので、ε-不感損失関数を使って見積もった誤差関数の最小化
を共に行うことによって過学習を防止する。
ε-不感損失関数
SVRによる回帰の実行結果の例（参考）
Ex1）y=x+0.5のデータにノイズを加えた
プロットでのSVR実施結果
Ex2）y=sin(x)のデータにノイズを加えた
Ex3）z=sin(x)cos(y)のデータにノイズを加えた
参考HP:https://watlab-blog.com/2019/12/29/svr/#SVR

Study AIラビットチャレンジ機械学習

More Related Content

What's hot (14)

Similar to Study AIラビットチャレンジ機械学習 (20)