2013-07-18

｢アルゴリズム]情報幾何・エントロピー・圧縮・AIC・EMアルゴリズムのすべてが登場ぱらぱらめくる『新版情報理論の基礎』

ぱらぱらめくるシリーズ情報情報理論情報幾何確率分布 Kullback–Leibler情報量エントロピーモデル選択 AIC 幾何

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)

作者: 村田昇
出版社/メーカー: サイエンス社
発売日: 2008/08/01
メディア: 単行本
購入: 4人クリック: 11回
この商品を含むブログ (7件) を見る

目次
- 1 はじめに
- 2 情報理論の基礎事項
- 3 情報幾何の考え方
- 4 符号化と種々の情報量
- 5 モデル選択
- 6 混合モデルとアルゴリズムの幾何学的理解
1 はじめに
- 情報は生起の可能性に関する知識
- 学習は情報を読みそこに構造を見出すこと
- 確率変数が確率空間で結ばれている
- 確率モデルには２つの流儀があって、パラメトリックとノン・パラメトリック。前者が補助変数を用いる流儀、後者がカーネルやk-nearest neighborsなどを含む、データそのまま使う流儀
- 代表的な確率モデル
  - 混合正規分布モデル
  - 隠れマルコフモデル
  - グラフィカルモデル
  - ニューラルネットワーク
  - 木構造モデル
  - カーネル法
2 情報理論の基礎事項
- 情報源と記憶性とi.i.d.(independent identically distributed)
- 通信、符号化、圧縮
- 情報量、二進数、KL情報量
3 情報幾何の考え方
- 確率分布が配置された空間で、確率分布の集合が多様体を作っている
- 分布は特性関数によって係数ベクトルになり、係数ベクトルは空間の点とみなせる→分布が幾何的に意味づけられた
- 分布が配置された空間では、分布間の距離が取れる。それにKL情報量が対応づく(対応づくように、距離の定義を入れる)
- 分布/密度関数とそれらの対数とのそれぞれについて、分布間、密度関数間の関係が幾何的に定義できて、それらをm-表現、e-表現と言う
- 分布が配置された多様体の上の距離は測地線で測る、測地線は「多様体上の直線」に相当する
- 分布/密度関数が平らに存在しているところは、「いい感じ」なところなので、m-平坦,e-平坦などと用語がつけられている
- 平坦な部分がミルフィーユみたいに層になっているところは直交葉層化と特別に呼ばれたりする
- 最尤推定は経験分布とモデルのKL情報量が最小であるような幾何的関係→分割表のlog-linear 期待表が周辺度数制約空間にないときに「垂線」を引くことと関係する？？？？
4 符号化と種々の情報量
- 符号にするとエントロピーが計算できる
- 同時分布には同時エントロピーがある
- 独立なときの同時分布/同時エントロピーと独立でないときのそれとの関係やKL情報量との間に「エントロピーの減少」と「情報の大きさ・多さ」などが表されている
- 符号の列は情報が冗長なので、それを情報量きちきちにまで減らすといいことがある。それ(の一部)が符号化
- 連続情報が離散化される〜量子化
- １次元の量子化はスカラー量子化：フーリエ解析
- ２以上次元の量子化はベクトル量子化：ボロノイ図、k-means、Learning vector quantization
5 モデル選択
- 情報源から出てきたものを読んで、かいつまむ〜構造を見出したい。それは符号化のように「情報きちきち」にすることでもある
- 情報きちきちはパラメタ表現するなら、いくつのパラメタで表されるの？という話になる
- モデルでうまく説明できているかどうかはモデル推定・回帰と残差の話。幾何的には、観測データそのもの(であるところの分布)が対応する情報幾何的な点と、モデルが作っている多様体(のうちの最尤推定点)との距離があてはまりのよさ
- モデルに可変パラメタがあれば、それに対応する情報幾何的多様体があって、関数そのもののこともあるし、それの対数を取ったものがよいこともあって、それは既出のe-、m-のこと。その上で、最尤推定点を求めるときは、微分して0を探すことになる
- 微分して0は１次元(１パラメタ)のときの話で、多次元になると偏微分だし、パラメタ組合せの要素が登場して来て、計量テンソル・フィッシャーの情報行列などの話になる
- モデルの複雑さについての評価にAICと最小記述長(Minimum description length MDL)とが出てくるのだが、MDLはわからないなりにこのときに聞いていたのでした)
  - $\text{AIC}=-2 \sum_{i=1}^N\log{p(Xi;\hat{\theta})}+2m$
  - $\text{2MDL} = -2 \sum_{i=1}^N\log{p(Xi;\hat{\theta}})+2m\log{N}$
  - MDLの罰則項の方が大きくなるのでMDLの方がパラメタ数を増やすことに関して厳しいとのこと
- AIC,MDLが漸近正規性を使っているのに対して、リサンプリングやクロスバリデーションはそれをせず(ノンパラ・観察標本に寄り添うタイプ)という位置づけにあるようだ
6 混合モデルとアルゴリズムの幾何学的理解
- 一つのモデルしかなければ、最尤推定点は一つに決まるが複数のモデルの組合せであれば、それぞれについて何かしら推定して、その総合として真のモデルの情報幾何的位置を選ぶ方法を定めることができる。そんな話
- だんだんに真の位置に近づきましょうというのがEMアルゴリズムで、それが情報幾何空間でどういうものなのかの表現は(比較的)わかりやすいので、情報幾何の説明の後半によく出てくるものらしい