バイアスとバリアンス

  • 多項式近似で近似できっこない関数を、標本から多項式近似することを考える
  • 近似できっこないので、どんなに頑張っても、近似結果からの予測値は真値から離れる。これをバイアスと言う
  • このどんなに頑張っても、というのを、「何度も近似を繰り返し、その近似の平均を取っても」と言い換えると
  • どんなに頑張ってもバイアスは残る
  • 頑張りすぎると、無理が生じて、その無理は、近似試行ごとの推定の(近似平均からの)ばらつきとして現れる。これをバリアンスと言う
  • 大雑把に言うと、モデルが単純だと、バイアスは大きく、その代わりにバリアンスが小さくなり、モデルが複雑だと、バイアスは小さくなるが、その代わりにバリアンスが大きくなる
  • 以下の例では、サインカーブからの標本を多項式近似してやり、複数の点で多項式近似に基づいて予測をしている
  • 標本点の端の辺りは、多項式近似が近似しにくい領域であるので、バイアスもバリアンスも大きく、特に多項式次数が大きくなればなるほどバイアスもバリアンスも大きくなる
  • 標本点の中央付近は、バイアス、バリアンスともに小さく抑えられる。次数が大きくなると、バイアスが小さくなる。バリアンスは次数とともに大きくなる傾向がある(が、サインカーブの特性と多項式の特性とから、必ずしも、その傾向の説明が単純にできるわけではなさそう)

f:id:ryamada:20181125111133p:plain
f:id:ryamada:20181125111142p:plain
f:id:ryamada:20181125111158p:plain