Simpsonのパラドクス〜代数統計風

  • 今日のMIKU。サイコロによるお題選定にて、2x2x2分割表における交絡因子とSimpsonのパラドクスが選ばれました
  • 普通のシンプソン・パラドクスではMIKUらしくないので、代数統計風にやってみました
  • 説明因子と被説明因子と第三の因子(交絡因子)とが作る2x2x2表があったときに
  • シンプソンのパラドクスは、説明因子ごとに被説明因子の2レベルの集計をしてその比率を問題にする
  • それをするにあたり、第三の因子で分けて集計するか、分けずに集計するかで、全部で6個の比率が出るが、その6個の値の組について、「パラドクス」を感じるかどうか、という話
  • ここで3因子を平等にすると
    • 第3の因子に選ばれる因子が3通り
    • 説明因子と被説明因子の取り方が2通り
  • というわけで全部で6通りあり
  • それぞれの場合について6個の値が出て、それについて「パラドキシカル」かどうかの判定が下る
  • 一方、比率を問題にしているので、ある2x2x2表に関するパラドキシカル判定はその表のすべてのセルを等倍しても変わらない。したがって、このような2x2x2表の場合は7次元空間にある8個の頂点からなる正単体が作る空間となる
  • この7正単体の点の1つ1つから、6通りの「パラドキシカル判定」が得られるので、それは2^6レベルに相当する
  • パラドクスのパラドクス加減というのは、この対応付けに関する人の感じ方のこと
  • パラドキシカル判定をせずに6通りに連続値を対応付けるとすれば、それは7次元空間の点と6次元空間の点の対応関係のこと
  • 次元は高いが対応式は単純なので、連立多項方程式・連立多項不等式で扱えて、要するに代数統計的に捉えれば、代数統計〜代数幾何的評価ができそう