ぱらぱらめくる『量子コンピュータによる機械学習』
量子コンピュータによる機械学習 [ Maria Schuld ]
- 価格: 4840 円
- 楽天で詳細を見る
目次
監訳者まえがき
- 機械学習の基礎は高次元データ・線形代数・確率分布の計算であり、それを適切な精度で高速に計算するための近似を発展させてきた
- 量子力学では確率分布関数が対象であり、1つの自由度に無限(次元)の可能性が付随する。この関数を量子ビットに限定しても、ビットを増やすとその組み合わせは指数関数的に増大する。そのことが量子計算の可能性を支えるが、地道に計算すると、逆行列計算、固有値・固有ベクトル計算をすることに対応し、それは、線形代数演算で最も計算量が多いものであることから、「地道な計算」には向いていない
- 計算すると時間がかかるはずだが、現実世界では、ミクロには量子計算が行われつつ、マクロな現象は瞬時に観測されている。この現実世界が行っていることが「量子コンピュータ計算」である
- 量子力学の原理に基づく計算手法を、機械学習の手続きに組み込もうとする試み
- 章立て
まえがき
第1章 はじめに
- 広義の量子機械学習は「機械学習と量子情報の相乗効果を用いたアプローチ全般」
- 本書では狭義の定義「量子コンピュータを用いた機械学習」または「量子の知見に基づいた機械学習」を採用する
- この本が扱う問い
- 1.1 背景
- 量子論の法則を用いなければ述できない計算を実行するコンピュータを量子コンピュータと呼ぶ
- 理論的に量子デバイス・量子コンピュータがデザインされ、実際の作成も進んでいる
- その理論的な量子デバイス上で実装されるアルゴリズムが量子アルゴリズム
- 量子ビットと量子ゲートは、そのような量子デバイスに含まれる。逆に言うと、量子ビット・量子ゲート以外の量子デバイスもある
- 量子コンピュータが行う「演算」は繊細であり、その繊細な状態が首尾一貫していて、正しいことを量子コヒーレンスと呼ぶ
- 量子コヒーレンスを乱さないことは大事だが、乱れることを前提にした対処も求められる。その対処の一つが誤り訂正である
- 誤り訂正は、首尾一貫性の確保であるから、大規模であるほど必要性が大きくなり、量子ビット間の相互作用が多いほど必要性が大きくなる
- 量子デバイス・コンピュータの開発は、大規模・中規模・小規模でそれぞれ進んでいる
- 小規模かつ、ビット間相互作用が少ない量子コンピュータは誤り訂正問題の影響が小さいので、先行している
- したがって、現時点での、実用を意識した量子アルゴリズム開発は、小規模・低相互作用系で解くことができ、かつ、古典アルゴリズムよりも十分に高速化することができるものを標的としている
- 機械学習は「統計学・数学・計算機科学」の交点
- データ量の増大に伴い、機械学習は日常生活・経済活動の中ですでに役割を有している
- 昨今の機械学習の「ブレイクスルー」のほとんどは、「計算能力の向上」「データセット規模の拡大への対応」などの量的改善にとどまる
- ニューラルネットワーク、サポート・ベクターマシン、AdaBoost、深層学習はいずれも理論的には1990年代から知られており、難しい最適化問題を解きつつ、その処理をブラックボックス化している
- 量子計算を機械学習に持ち込むことは質的改変となる可能性がある
- 量子機械学習の4類型
- (データ生成が量子系か古典系か) x (情報処理デバイスが量子系か古典系か) が作る4パターン
- CQアプローチによる教師あり学習
- 1.2 量子コンピュータによる識別
- 例:アダマールゲートにより誘発される量子干渉を用いて、ある種の最近傍法を実装する
- 1.2.1 二乗距離識別機
- 近傍法
- 最近傍法
- 新標本と、既標本との近接度を算出し、最近傍の既標本のラベルを新標本も持つものとする
- k-近傍法
- 既標本のうち、1,2,...,k番に近い標本のラベルの多数決で新標本のラベルを決める
- 重み付き近傍法
- 既標本と新標本の近接度により、各既標本に重みを与え、その重み付き多数決で新標本のラベルを決める。最近傍法、k-近傍法も、重み付き近傍法の重み関数のバリエーションとなる
- 近接度を二乗距離としたとき、「二乗距離法」となる
- 重みをとすると…
my.sq.dist.classifier <- function(new.x,X,Y,k=1){ Q <- unique(Y) w <-apply( (t(X) - new.x)^2, 2, sum) Pr <- rep(0,length(Q)) for(i in 1:length(Pr)){ tmp <- which(Y==Q[i]) Pr[i] <- sum((1 - 1/k * w[tmp])) } Pr <- Pr/sum(Pr) return(list(Pr=Pr,Class=Q)) } n <- 5 # No. samples p <- 2 # No. features X <- matrix(rnorm(p*n),ncol=p) # No. classes q <- 3 Y <- sample(1:q,n,replace=TRUE) new.x <- rnorm(p) my.sq.dist.classifier(new.x,X,Y)
> my.sq.dist.classifier(new.x,X,Y) $Pr [1] 0.80814006 0.02022597 0.17163397 $Class [1] 1 3 2
1.2.2 アダマール変換による干渉
from sympy.physics.quantum import * # ↑基本機能のインポート from sympy.physics.quantum.qubit import Qubit,QubitBra, measure_all, measure_partial # ↑ブラケットを使えるようにします from sympy.physics.quantum.gate import X,Y,Z,H,T,S,CNOT,SWAP,HadamardGate # ↑基本的な量子ゲートを使えるようにします from sympy.physics.quantum.gate import IdentityGate as I # ↑恒等変換は省略されないため I と省略できるようにします from sympy.physics.quantum.dagger import Dagger from sympy import sqrt from sympy.physics.quantum.qapply import qapply # 表・表状態 q1 = Qubit('00') q1 # 最も右のビットにだけアダマール変換 q2 = H(0) * q1 q2 # この状態q2を測定してみる q2a = qapply(q2) measure_all(q2a) # 状態をq2に変え、そこで観測をせずに、もう一度、片方にだけアダマール変換 q2 = H(0) * q1 q3 = H(0) * q2 # q3を測定してみる q3a = qapply(q3) measure_all(q3a) # ビットの数を増やす n = 5 q1 = Qubit('0'* n) q1 # ごちゃごちゃさせておく q2 = H(0) * H(1) * H(2) * q1 q2 # この状態q2を測定してみる q2a = qapply(q2) measure_all(q2a)
- 1.2.3 量子二乗距離識別器
- ステップA:データを単位球面上の点に座標変換する
- ステップB:データ符号化。教師情報と新規標本情報から量子ビット状態(ベクトル)を作る
- ステップC:教師情報と新規標本情報とを区分けしている量子ビットについてアダマール変換する。これにより、教師情報に対応する組み合わせに新規標本情報が「加え」られる
- ステップD:教師情報と新規標本情報とを区分けしている量子ビットを観察し、特定の場合にのみ、下流処理を行うことにする。これにより、新規標本に対応する組み合わせの振幅はゼロのベクトルに変わる
- ステップE:教師情報・新規標本情報の両方に関して、「分類ラベル」に相当する量子ビットを観察する。この観察で0/1のいずれかがどのくらいの割合で観察されるかの推定となる
- データ符号化の後のステップは、C,D,Eの3ステップのみ。これを入力後の処理と見做せば、入力がどんなに多くても、3段階処理で済み、入力データのサイズによらない~定数時間アルゴリズムである、と言う
- これを、二乗距離識別器で、古典的に実行すると以下のようになる
> X <- matrix(c(0.921,0.390,0.141,0.990),byrow=TRUE,ncol=2) > new.x <- c(0.866,0.500) > > Y <- c(1,0) > > my.sq.dist.classifier(new.x,X,Y,k=4) $Pr [1] 0.5519867 0.4480133 $Class [1] 1 0
-
- 対応するSympyの処理は、データ符号化のやり方がわからないが・・・
- ステップB
- 対応するSympyの処理は、データ符号化のやり方がわからないが・・・
# これではだめ! q1 = (Qubit('0001') * 0.921 + Qubit('0011') * 0.390 + Qubit('0100') * 0.141 + Qubit('0110') * 0.990 + Qubit('1001') * 0.866 + Qubit('1011') * 0.500 + Qubit('1100') * 0.866 + Qubit('1110') * 0.500) * 1/sqrt(4) q1
-
-
- ステップC
-
q2 = H(3) * q1 q2
- 1.3 本書の構成
第2章 機械学習
- 2.1 推定
- データをモデルに入力として与え、モデルが導き出す結果を出力・推定結果と呼ぶことにする
- 教師アリ学習(識別・回帰、予測)
- 教師ナシ学習(仮説推測)
- 強化学習(ゲーム)
- 2.2 モデル
- 2.3 訓練
- 訓練の目的は最適化問題を解くこと
- 誤差逆伝搬法やボルツマンマシンを利用した深層ニューラルネットワーク学習法は最適化問題を解くための方法
- コスト関数(損失関数と正則化項)
- 確率的勾配降下法
- 訓練の目的は最適化問題を解くこと
- 2.4 機械学習の手法
- 表2.3をよく見よう
- fはモデル関数、pは分布(関数)
- (w,x)は変数とその係数。それらの関係性
- 線形なことは、線形計算()で表されている。非線形は、その計算が「非線形関数」になっている
- w(ベクトル)ではなくW(行列)ならば、次元が増減できる
- 層をなしているネットワークは行列の適用の繰り返し
- グラフィカルモデルになると、Wの繰り返しのような構造がなくなり、グラフの構成要素がパラメタを持ち、その総体としての計算になる
- 隠れマルコフモデルはv(t),v(t-1)の関係を持ち込んでいることが式からわかる
- カーネル法は、標本ペアに関して計算する関数を使う方法。変数や隠れ変数を使った関数表現ではなく、標本由来の演算。スカラー値を返すカーネル関数、その束、さらにグラム行列を用いて記述されている
- 線形回帰:行列演算
- 非線形回帰
- ニューラルネットワークは非線形回帰モデルとして働く
- 線形計算結果を非線形モデル関数に処理させる系
- 順伝搬型ニューラルネットワークにおける重みづけ行列の最適化のための勾配計算には誤差逆伝搬法が使われる
- 再帰型ニューラルネットワークは、グラフで言えば完全グラフ。グラフ全体に関して更新を繰り返す。順伝搬型に描きなおすことも可能
- ボルツマンマシンは確率的な再帰型ニューラルネットワークモデル。式が確率密度分布になっている。実際の計算は困難で、制限ボルツマンマシンを用いる
- グラフィカルモデル:ベイジアンネットワーク、隠れマルコフモデル
- カーネル法:カーネル密度推定、k-近傍法、サポートベクターマシン、ガウシアン過程(モデル関数を確率的に選び出す)・・・標本駆動的・・・ノンパラ的・・・
第3章 量子情報入門
- 3.1 量子論の入門
- 3.2 量子計算入門
-
- 量子ビットを使う計算モデルとそうでないモデルとがある(が、量子ビットを使うモデルを基本として、以降の話は進む)
- 「量子コンピュータは、状態の時間変化を正確に制御するn量子ビットの物理的な実装」である
- 「量子コンピュータを使うということは、レーザーの強度や地場などの特定の実験構成で、物理的な観測量の分布を読み取るということ」
- 「量子系の時間発展が、1つまたは2つの量子ビットだけに作用する、量子ゲートと呼ばれるほんの一握りの基本的な「操作」の組み合わせで近似できる」
- 量子ビットは2つの基底状態。その重ね合わせで長さ2のベクトル(ケットベクトル)で表せる
- 2つの基底状態を長さ2の複素ベクトルでも表す
- エンタングルメントないとき(純粋状態)は、複数の量子ビットの集合状態はテンソル積で書ける。エンタングルメントしているとき(混合状態)は、テンソル積で書けない値を取るので、通りの状態に確率振幅を与えて「足し合わせ」た状態となる
- 純粋状態は[tex:\rho_{純粋} = |\psi> < \psi | = \sum_{i,j=1}^N \alpha_i^* \alpha_j | i>
- 混合状態は
- ちなみに純粋状態を指定する係数の数は、混合状態のそれは。この複雑さ~自由度の高さが混合状態の複雑さ
- 観測はの場合に分散している確率振幅を、一つに(もしくは部分観測の場合はそれに応じた、少な目の場合に分散して残りの場合の確率振幅がゼロの状態に)変換すること
- 量子ゲートはユニタリ変換をすること
- 円タングル回路の例がある。これをSympyで書けるか?
- 関数f(x)の作用の実装
- 「x -> f(x)(とする回路構成は)、一般的にユニタリではないため」別の回路実装「とされる…(?)
- その実装により、重ね合わせ状態が作られる。重ね合わせ状態を作るということは、2つの状態(f(0)とf(1))とを同時に保持できることを意味し、それが量子コンピューティングのメリットの源泉
- 3.3 Deutsch-Joszaのアルゴリズム
- 3.4 情報の符号化の方法
- データマイニング・機械学習では情報の符号化の問題が中心になるのに対して、量子計算の領域では話題にならない
- 情報の符号化符号化されるものによっていくつかに分けられる
- 「計算基底符号化 basis encoding」
- 実数を二進法表現し、その01列を量子ビットにに対応させる
- 複数の実数があれば、それをタンデムにつなぐ
- 「振幅符号化 amplitude encoding」
- 量子状態は確率振幅を持つので、振幅情報を量子状態として保持するというアイディアがある。その方法はベクトルでその情報を持つ場合と行列で持つ場合とがある。ただし、いったん量子状態として振幅情報を持つと、振幅情報の変化には、量子状態の変化として実現するしか手がなくなる。言い換えるとユニタリ変換を強制される~線形変換を強制される
- 自由度を確保するために、振幅情報の持ち方に冗長化が必要だったりもする
- 「量子サンプル状態符号化 qsample encoding」
- 量子状態から観測をし、それを繰り返すことで、古典的な確率分布情報が得られる。その変換のこと
- 「ハミルトニアン符号化 dynamic encoding」
- 行列状の情報は、そのような値を持つハミルトニアンとして持つことができる
- ユニタリ行列として持つか、エルミート行列として持つかすれば、量子計算の登場人物とすることができる
- 3.5 需要な量子ルーチン
第4章 量子優位性
- 4.1 学習の計算複雑性
- 漸近的計算複雑性(理論的な概念)、量子コンピュータでは入力の数=量子ビットの数、この入力の数=量子ビットの数を大きくしたときの漸近性を複雑性の指標とする
- 量子コンピュータが「漸近的な実行時間複雑性」を尺度にして古典コンピュータより優れていることを、量子エンハンスメント・量子優位性・量子加速(quantum enhancement, q. advantage, q. speedup)と呼ぶ。量子超越性(q. supremcy)はその優位性が指数関数的なことを指す
- 精度の指標には、推定値と真値の差を定義するノルムが用いられたり、行列を使う推定の場合には行列の条件数(最大特異値(固有値)と最小特異値(固有値)の比)が使われる、行列の条件数 Condition Number がどうしてそのような役割を果たすかについてはこちら
- 確率的に推定するときには、成功確率の低さに応じて、試行回数が増えるので、試行回数の平均(や一定の条件の上限値)なども使われる
- 4.2 サンプル複雑性
- 4.3 モデルの複雑性
- バイアス・バリアンス。自由度。オッカムのカミソリ
第5章 情報の符号化
- 量子計算による機械学習のための枠組み
- 5.1 計算基底符号化
- ビットを組み合わせて、たくさんの場合を作り、そこに入力データとして、重みをもたせていく
- [tex:|D> = \frac{1}{\sqrt{M}} \sum_{m=1}^M |x^m>
- M個の標本のそれぞれの情報がで、それが確率として分ずつ合わさったものを、「確率振幅は二乗して『確率』になる」ということを用いて、重みとしてとした式
- 入力データの持たせ方の基礎は解った
- 次に、複数の入力データをため込むためにどうするかをVentura-Martinezのやり方を例に説明している
- 記憶用と入力用とを使い分け、どちらが記憶用でどちらが入力用かを判別するビットも保持し、標本の追加に応じて記憶用の状態に相当する確率振幅を更新する
- これとは異なり、並列的にビット列を量子レジスタに読み込む「量子ランダムアクセスメモリ」というデバイスの構成も検討されている
- トフォリゲート
- 量子状態の読み出しは、測定によって実現される
- 測定されるのは、確率的な値。それを繰り返し測定して、比率がわかる
- 量子状態(確率振幅状態)を測定から復元することが「量子状態の読み出し」~量子トモグラフィ
- エンタングルメントがあったりしているときには、ベクトルだけ取り出してもわからない。対角成分以外にも情報のある行列(密度行列)を取り出す必要がある
- 推定と信頼区間。waldの信頼区間とWilsonの信頼区間
> library(binom) Warning message: パッケージ ‘binom’ はバージョン 4.0.5 の R の下で造られました > binom.confint(x = c(2, 4), n = 100, tol = 1e-8) method x n mean lower upper 1 agresti-coull 2 100 0.02000000 0.001095977 0.07441778 2 agresti-coull 4 100 0.04000000 0.012418859 0.10161516 3 asymptotic 2 100 0.02000000 -0.007439496 0.04743950 4 asymptotic 4 100 0.04000000 0.001592707 0.07840729 5 bayes 2 100 0.02475248 0.001548220 0.05487873 6 bayes 4 100 0.04455446 0.009880014 0.08495779 7 cloglog 2 100 0.02000000 0.003866705 0.06362130 8 cloglog 4 100 0.04000000 0.013067378 0.09175206 9 exact 2 100 0.02000000 0.002431337 0.07038393 10 exact 4 100 0.04000000 0.011004494 0.09925716 11 logit 2 100 0.02000000 0.005007519 0.07643178 12 logit 4 100 0.04000000 0.015094076 0.10175601 13 probit 2 100 0.02000000 0.004390455 0.06850351 14 probit 4 100 0.04000000 0.014032309 0.09594809 15 profile 2 100 0.02000000 0.003356435 0.06047940 16 profile 4 100 0.04000000 0.012621438 0.09048300 17 lrt 2 100 0.02000000 0.003353612 0.06047875 18 lrt 4 100 0.04000000 0.012592624 0.09048265 19 prop.test 2 100 0.02000000 0.003471713 0.07736399 20 prop.test 4 100 0.04000000 0.012890866 0.10511152 21 wilson 2 100 0.02000000 0.005501968 0.07001179 22 wilson 4 100 0.04000000 0.015663304 0.09837071
- 5.2 振幅符号化
- NxM個の値をビットに符号化する
- いわゆる入力値を確率振幅値(に比例した値)にする
- 量子計算では符号化準備が大変。量子計算の効率化メリットの範囲内で符号化できないと意味がないが、現在、符号化のための手間と、量子化によるメリットとを比較すると、符号化の手間の重さがメリットを宇和待ってしまっている。準備処理を線形時間化できれば・・・という提案手法がある
- Mottonenの提案。複数制御回転ゲート。「効率的にやろう」と考えると、「けちけち」するのが古典的発想。「全部を扱う」のは非効率、と言うのが古典的発想。だが、量子では全部をいじるのは難しくない、全部を逐次的にいじるのは、「全部」を扱うことが量子では軽いので、「逐次処理~線形処理」の重さになる、と、そういう話(か?)
- 量子ビット数に関する効率的な状態準備は、並列化を基礎としたアプローチ、オラクルを基にしたアプローチ、量子ランダムメモリと分けて説明されている
- 量子状態変化は、「全体」を見ているとき、ノルムが1を満足しなければならず、それを満足する変換はユニタリ変換なので、線形。したがって、非線形な処理は本質的に受け付けない。ただし、「測定」によって場合分けすると、知りたいことを測定できるかどうかが確率的に決まり、そのような情報は、ユニタリ変換~線形変換ではないので、非線形な取扱いは測定と絡むらしい
- 5.3 量子サンプル状態符号化
- 古典的な離散確率分布を振幅ベクトルに翻訳する
- N個の離散状態をそれぞれ別個の特徴量変数とみなせば、計算基底を符号化していることになり、それが振幅ベクトルとして実現されているので、振幅符号化とも言える
- 5.4 ハミルトニアン符号化
第6章 推論のための量子計算
- 6.1 線形モデル
- 6.2 カーネル法
- 6.3 確率モデル
第8章 量子モデルを利用した学習
- 8.1 イジング模型の量子力学への拡張
- 8.2 変分回路とニューラルネットワーク
- 8.3 量子力学を利用したモデルに対する他のアプローチ