「アルゴリズム]情報幾何・エントロピー・圧縮・AIC・EMアルゴリズムのすべてが登場ぱらぱらめくる『新版 情報理論の基礎』

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)

  • 目次
  • 1 はじめに
  • 2 情報理論の基礎事項
    • 情報源と記憶性とi.i.d.(independent identically distributed)
    • 通信、符号化、圧縮
    • 情報量、二進数、KL情報量
  • 3 情報幾何の考え方
    • 確率分布が配置された空間で、確率分布の集合が多様体を作っている
    • 分布は特性関数によって係数ベクトルになり、係数ベクトルは空間の点とみなせる→分布が幾何的に意味づけられた
    • 分布が配置された空間では、分布間の距離が取れる。それにKL情報量が対応づく(対応づくように、距離の定義を入れる)
    • 分布/密度関数とそれらの対数とのそれぞれについて、分布間、密度関数間の関係が幾何的に定義できて、それらをm-表現、e-表現と言う
    • 分布が配置された多様体の上の距離は測地線で測る、測地線は「多様体上の直線」に相当する
    • 分布/密度関数が平らに存在しているところは、「いい感じ」なところなので、m-平坦,e-平坦などと用語がつけられている
    • 平坦な部分がミルフィーユみたいに層になっているところは直交葉層化と特別に呼ばれたりする
    • 最尤推定は経験分布とモデルのKL情報量が最小であるような幾何的関係→分割表のlog-linear 期待表が周辺度数制約空間にないときに「垂線」を引くことと関係する????
  • 4 符号化と種々の情報量
  • 5 モデル選択
    • 情報源から出てきたものを読んで、かいつまむ〜構造を見出したい。それは符号化のように「情報きちきち」にすることでもある
    • 情報きちきちはパラメタ表現するなら、いくつのパラメタで表されるの?という話になる
    • モデルでうまく説明できているかどうかはモデル推定・回帰と残差の話。幾何的には、観測データそのもの(であるところの分布)が対応する情報幾何的な点と、モデルが作っている多様体(のうちの最尤推定点)との距離があてはまりのよさ
    • モデルに可変パラメタがあれば、それに対応する情報幾何的多様体があって、関数そのもののこともあるし、それの対数を取ったものがよいこともあって、それは既出のe-、m-のこと。その上で、最尤推定点を求めるときは、微分して0を探すことになる
    • 微分して0は1次元(1パラメタ)のときの話で、多次元になると偏微分だし、パラメタ組合せの要素が登場して来て、計量テンソル・フィッシャーの情報行列などの話になる
    • モデルの複雑さについての評価にAICと最小記述長(Minimum description length MDL)とが出てくるのだが、MDLはわからないなりにこのときに聞いていたのでした)
      • \text{AIC}=-2 \sum_{i=1}^N\log{p(Xi;\hat{\theta})}+2m
      • \text{2MDL} = -2 \sum_{i=1}^N\log{p(Xi;\hat{\theta}})+2m\log{N}
      • MDLの罰則項の方が大きくなるのでMDLの方がパラメタ数を増やすことに関して厳しいとのこと
    • AIC,MDLが漸近正規性を使っているのに対して、リサンプリングやクロスバリデーションはそれをせず(ノンパラ・観察標本に寄り添うタイプ)という位置づけにあるようだ
  • 6 混合モデルとアルゴリズム幾何学的理解
    • 一つのモデルしかなければ、最尤推定点は一つに決まるが複数のモデルの組合せであれば、それぞれについて何かしら推定して、その総合として真のモデルの情報幾何的位置を選ぶ方法を定めることができる。そんな話
    • だんだんに真の位置に近づきましょうというのがEMアルゴリズムで、それが情報幾何空間でどういうものなのかの表現は(比較的)わかりやすいので、情報幾何の説明の後半によく出てくるものらしい