隠れマルコフモデル

機械学習およびデータマイニング

問題分類クラスタリング回帰異常検知相関ルール（英語版）強化学習構造化予測（英語版）特徴量設計（英語版）表現学習（英語版）オンライン学習（英語版）半教師あり学習（英語版）教師なし学習ランキング学習（英語版）文法獲得（英語版）
教師あり学習（分類 • 回帰）決定木（英語版）アンサンブル（バギング、ブースティング、ランダムフォレスト） k-NN 線形回帰単純ベイズニューラルネットワークロジスティック回帰パーセプトロン関連ベクトルマシン (RVM)（英語版）サポートベクトルマシン (SVM)
クラスタリング BIRCH（英語版）階層的（英語版） k平均法期待値最大化法 (EM) DBSCAN OPTICS（英語版）平均値シフト（英語版）
次元削減因子分析 CCA ICA LDA（英語版） NMF（英語版） PCA t-SNE
構造化予測（英語版）グラフィカルモデルベイジアンネットワーク CRF HMM
異常検知 k-NN 局所外れ値因子法
ニューラルネットワークオートエンコーダディープラーニング DeepDream 多層パーセプトロン RNN LSTM GRU 制約ボルツマンマシン（英語版） SOM CNN U-Net
強化学習 TD学習 Q学習 SARSA
理論偏りと分散のトレードオフ計算論的学習理論（英語版）経験損失最小化（英語版）オッカム学習（英語版） PAC学習統計的学習（英語版） VC理論（英語版）
学会・論文誌等 NIPS（英語版） ICML（英語版） ML（英語版） JMLR（英語版） ArXiv:cs.LG
全般統計学および機械学習の評価指標
Category:機械学習 Category:データマイニング
表話編歴

隠れマルコフモデル（かくれマルコフモデル、英: hidden Markov model; HMM）は、確率モデルのひとつであり、観測されない（隠れた）状態をもつマルコフ過程である。

概要

同じマルコフ過程でも、隠れマルコフモデルより単純なマルコフ連鎖では、状態は直接観測可能であり、そのため、状態の遷移確率のみがパラメータである。一方、隠れマルコフモデルにおいては、状態は直接観測されず、出力（事象）のみが観測される。ただしこの出力は、モデルの状態による確率分布である。従って、ある隠れマルコフモデルによって生成された出力の系列は、内部の状態の系列に関する何らかの情報を与えるものとなる。「隠れ」という語はモデルが遷移した状態系列が外部から直接観測されないことを指しており、モデルのパラメータについてのものではない。たとえパラメータが既知であっても隠れマルコフモデルと呼ばれる。隠れマルコフモデルはごく単純な動的ベイジアンネットワークとして表現することができる。

状態空間が離散の場合は離散型隠れマルコフモデル（discrete hidden Markov model）、連続の場合は連続分布型隠れマルコフモデル（continuous density hidden Markov model）と呼ばれ、連続と離散の混合型もある。

隠れマルコフモデルは、潜在変数（hidden variable, latent variable）が各々独立ではなく、マルコフ過程を通じて関連付けられている混合分布モデル(Mixture Model)を拡張したものとみなすことができる。この潜在変数は、それぞれの観測に対して選択されるように混合要素を制御するものである。近年、隠れマルコフモデルは、より複雑なデータ構造と非定常的なデータの取り扱いが可能なpairwise Markov modelsやtriplet Markov modelsに一般化されている。

隠れマルコフモデルに関する数学的概念はL. E. Baumと彼の同僚らによって1966年に発表された^[1]^[2]^[3]^[4]^[5]。これは、最初にフォワードバックワードアルゴリズムを発表したR. L. Stratonovichによる非線形フィルタリング問題の最適化についての初期の成果に関連している。

隠れマルコフモデルは、音声認識、バイオインフォマティクス、形態素解析（自然言語処理）、楽譜追跡、部分放電など、時系列パターンの認識に応用されている。連続的かつ伸縮しうる信号列のパターン抽出には適しているが、反面、長い距離をはさんで呼応しているような信号列からのパターン認識には、間の距離の長さに応じて状態数を増やす必要があり、計算量の観点から実用的ではない。また、局所最適に陥りやすいため、対象に応じて適切なパラメータの初期値を設定してやる（適切なモデルトポロジーを導入する）必要がある。

構成

図2. 隠れマルコフモデルのパラメータ（例）
$x$ : 潜在変数の状態
$y$ : 可能な観測値
$a$ : 状態遷移確率
$b$ : 出力確率

{\displaystyle x} — 図2. 隠れマルコフモデルのパラメータ（例）
$x$ : 潜在変数の状態
$y$ : 可能な観測値
$a$ : 状態遷移確率
$b$ : 出力確率

図1は、隠れマルコフモデルの一般的な構成を示している。確率変数 $x(t)$ は、時刻 $t$ における潜在変数である。確率変数 $y(t)$ は時刻 $t$ における観測値である。矢印は、条件付き確率間の依存関係を表している。

図2は潜在変数の状態数が3 ( $x(t)\in \left\{x_{1},x_{2},x_{3}\right\}$ ）、観測値の状態数が4（ $y(t)\in \{y_{1},y_{2},y_{3},y_{4}\}$ ）の隠れマルコフモデルを示している。

時刻 $t$ における潜在変数 $x(t)$ の条件付き確率分布は、潜在変数 $x(t-1)$ にのみ依存する。 $x(t-2)$ およびそれ以前の状態は影響しない。これを（単純）マルコフ性という。また、観測値 $y(t)$ は $x(t)$ にのみ依存する（時刻 $t$ が同じであることに注意）。ここで考えるような標準的な隠れマルコフモデルでは、潜在変数 $x(t)$ は離散的であり、観測値 $y(t)$ は連続的でも離散的でもよい。

隠れマルコフモデルのパラメータは、遷移確率と出力確率の2種類である。遷移確率は、時刻 $t-1$ での潜在変数から時刻 $t$ での潜在変数への状態遷移を表す。図2において、遷移確率は $a_{ij}$ で、出力確率は $b_{ij}$ で示されている。

潜在変数の状態空間は $N$ 個の値をとる離散分布である（図2では $N=3$ ）。これは、時刻 $t$ において潜在変数がとりうる $N$ 個の値のそれぞれに対して、時刻 $x(t+1)$ での潜在変数がとりうる $N$ 個の値への遷移確率が存在することを意味する。結果的に、全体で $N^{2}$ の遷移確率がある（図2ではそのうち $a_{12},a_{21},a_{23}$ のみを示している）。この $N\times N$ 行列をマルコフ行列という。確率の公理より、ある特定の状態から他の状態への遷移確率の和は1である。そのため、特定の状態からのある遷移確率はそれ以外の確率がわかれば決まるので、 $N\times (N-1)$ 個の遷移パラメータがあることになる。

これに加えて、 $N$ 個の状態のそれぞれに、潜在変数の特定の時刻において観測値の分布を支配する出力確率の組がある（図2では $M=4$ で、 $3\times 4$ の出力確率 $b_{ij}$ がある）。たとえば、観測値が離散分布で $M$ 個の値をとるとき、個々の潜在変数に $M-1$ 個のパラメータがあるから、全体で $N\times (M-1)$ 個の出力パラメータがある。あるいは、観測値が任意の混合ガウス分布に従う $M$ 次元ベクトルであれば、平均値のために $M$ 個と、共分散行列に $M(M+1)/2$ 個のパラメータがあるから、合わせて $N(M+M(M+1)/2)=NM(M+3)/2=O(NM^{2})$ の出力パラメータがある。

実際には、 $M$ が小さくない限り、観測ベクトルの個々の要素間の共分散の特性に制約を設けることが現実的である。たとえば要素ごとに独立であるとか、もう少し制約を緩めて、隣接するいくつかの要素以外は独立であるなどとすることが考えられる。

推測

隠れマルコフモデルに関して、以下に示すようないくつかの統計的推測問題がある。

観測値系列の確率

図3. 隠れマルコフモデルの状態遷移と出力確率
点線の下にある出力系列が観測されたとき、これがどのような状態系列によって得られたものかを考えると、図に示された状態遷移と出力確率の矢印から、次の状態系列が候補となる。
5 3 2 5 3 2
4 3 2 5 3 2
3 1 2 5 3 2
それぞれの候補について、状態系列と観測系列の同時確率を求めることによって、最もありそうな（つまり最尤の）状態系列を求めることができる。一般にこのような最尤観測系列の問題はビタビアルゴリズムで効率的に解くことができる。

モデルのパラメータが既知のとき、特定の出力系列が得られる確率を求める。これは、可能な状態系列についての確率の総和によって得られる。

長さ $L$ の観測値系列

Y=y(0),y(1),\dots ,y(L-1)

の確率は、潜在状態系列

X=x(0),x(1),\dots ,x(L-1)

の確率の総和を用いて次のように与えられる。

P(Y)=\sum _{X}P(Y\mid X)P(X)

動的計画法の原理を適用すると、この問題は前向きアルゴリズムで効率的に扱うことができる。

潜在変数の確率

モデルパラメータと観測系列が与えられたとき、ひとつあるいはそれ以上の潜在変数の確率を求める以下のような問題がある。

フィルタリング

この問題は、モデルパラメータと観測系列が与えられたとき、系列の最後における潜在変数の状態の確率分布、つまり $P(x(t)\ |\ y(1),\dots ,y(t))$ を求めるものである。この問題は、一般に、潜在変数の系列があるプロセスの背後の状態で、そのプロセスは各時刻の観測値に関してある過程が時刻の系列に従って遷移するものと考えられる場合に用いられる。従って、最後の時点でのプロセスの状態を知ることが自然である。この問題は、フォワードアルゴリズムで効率的に解くことができる。

平滑化

フィルタリングが系列の最後の状態を求めるのに対して、平滑化 (smoothing) は系列の途中のどこかの時点での潜在変数の確率分布、つまりある時刻 $k<t$ における $P(x(k)\ |\ y(1),\dots ,y(t))$ を求めるものである。これはフォワードバックワードアルゴリズムで効率的に解くことができる。

最尤系列推定

この問題は、前の2つの問題と異なり、特定の観測値系列を生成する潜在変数の系列全体の同時確率を求めるものである。これは一般に、隠れマルコフモデルをフィルタリングや平滑化とは異なる種類の問題に適用する場合に用いられる。

例えば自然言語処理の構文解析における品詞タグ付けは、単語の並びから品詞を推定するものである。品詞を隠れマルコフモデルの潜在変数とし、ある品詞から他の品詞につながる確率を品詞付与コーパスなどから遷移確率として求めておく。また、各状態（品詞）から具体的な単語が出力されると考え、その出現確率もコーパスから求めておく。分析したい単語の並びが観測系列となる。品詞タグ付けは、与えられた単語列から隠れた状態としての品詞列を最尤推定するが、このとき関心があるのは全体の品詞の系列であり、フィルタリングや平滑化が扱うような単一の語の品詞を求めることではない。

この問題は、可能な状態系列の確率の最大値を求めるものであり、ビタビアルゴリズムによって効率的に解くことができる。

統計的有意性

上記のいくつかの問題に対して、統計的有意性を知りたい場合がある。帰無仮説が真となる分布から得られた系列が、どのような状態系列の確率をもつか（フォワードアルゴリズムの場合）あるいは状態系列の確率の最大値（ビタビアルゴリズムの場合）で少なくとも特定の出力系列と同じくらい大きなものは何かというようなものである。隠れマルコフモデルで、特定の出力系列に関する仮説の統計的適切性を評価する場合、その統計的有意性は、出力系列に対して間違って仮説を棄却してしまう擬陽性率 (false positive rate) を示す。

具体例

図3. Graphical representation of the given HMM

遠くに住んでいる友人のアリスとボブがいて、電話で毎日お互い自分のしたことを話している。ボブは「公園での散歩 (walk)」、「買い物 (shop)」、「部屋の掃除 (clean)」の3つのことにしか関心がない。何をするかは、その日の天気によってのみ決めている。アリスはボブが住んでいる地域の日々の天気については具体的に知らないが、一般的な天候の変化については知っている。ボブが毎日話すことにもとづいて、アリスは天気がどのようになっているかを推測しようとする。

アリスは、天気が離散マルコフ過程として変化すると考える。天気には「雨 (Rainy)」と「晴れ (Sunny)」の2つの状態があるが、アリスはそれを直接知ることができないから「隠れ」た状態である。毎日、ボブは天気に応じて「散歩」「買い物」「掃除」のどれかひとつだけを必ずする。ボブがそれをアリスに話すことが、アリスにとっての観測（ボブからの出力）である。この状況全体が隠れマルコフモデルとなる。

アリスは、ボブのいる地域の一般的な天候の変化（遷移確率）については知っている。また、どの天気のときにボブがどの行動をするか（出力確率）を知っている。つまり隠れマルコフモデルのパラメータが既知である。これは、Pythonで次のように表される。

states = ('Rainy', 'Sunny')

observations = ('walk', 'shop', 'clean')

start_probability = {'Rainy': 0.6, 'Sunny': 0.4}

transition_probability = {
    'Rainy': {'Rainy': 0.7, 'Sunny': 0.3},
    'Sunny': {'Rainy': 0.4, 'Sunny': 0.6},
}

emission_probability = {
    'Rainy': {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
    'Sunny': {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
}

このコードでstart_probability は、ボブが最初に電話する前の時点で、隠れマルコフモデルがどちらの状態にあるかというアリスの考えである（彼女は平均的には雨の方がやや多いと知っている）。この確率分布は平衡なものではない（遷移確率によれば平衡は {'Rainy': 0.57, 'Sunny': 0.43}）。遷移確率 transition_probability はマルコフ連鎖での天気の変化を表す。この例では、今日が雨であれば、明日晴れる確率は30%である。出力確率 emission_probability は、その日にボブが行う行動の確率である。もし雨であれば掃除をする確率は50%で、晴れていれば散歩に行く確率は60%である。

ビタビアルゴリズム

詳細は「ビタビアルゴリズム」を参照

ビタビアルゴリズム（Viterbi algorithm）は、モデルパラメータが既知のとき、与えられた配列を出力した可能性（尤度）が最も高い状態列（最尤状態列）を計算するアルゴリズムで、動的計画法の一種である。ある時点 t での最尤状態遷移列はtまでに観測された情報と、t-1 までで最も確からしい（＝尤もらしい）最尤状態遷移列だけに依存すると仮定する。

例えば、出力 'A' と 'B' を確率0.5ずつで出力し、他の状態にまれにしか遷移しない状態 A と、出力 'A' と 'C' を確率0.5ずつで出力し、他の状態にまれにしか遷移しない状態Bがあった場合、時点 t で 'A' が出力され、時点 t-1 で最尤だと推定された状態遷移列からの遷移確率が状態 A の方が高いならば、時点 t では状態 A にいたと推定される。しかし、t+1 以降で 'C' の出力が続いた場合、全体としての尤度は状態 B に遷移していたほうが高くなる。

ビタビアルゴリズムを使用するには、観測可能なイベントは観測不可能な状態遷移と1対1対応していることが求められる。

バウム・ウェルチアルゴリズム

詳細は「バウム＝ウェルチアルゴリズム」を参照

バウム・ウェルチアルゴリズム（Baum-Welch algorithm）は、モデルが出力した系列からモデルパラメータを推定するアルゴリズムである。前向きアルゴリズム、後ろ向きアルゴリズム、EMアルゴリズムから構成される。前向きアルゴリズムおよび後ろ向きアルゴリズムは動的計画法の一種であり、ある時点で各状態にいる確率を求めるアルゴリズムである。

参照

^ Baum, L. E.; Petrie, T. (1966). “Statistical Inference for Probabilistic Functions of Finite State Markov Chains”. The Annals of Mathematical Statistics 37 (6): 1554–1563. doi:10.1214/aoms/1177699147. https://www.jstor.org/stable/2238772 2023年4月5日閲覧。.
^ Baum, L. E.; Eagon, J. A. (1967). “An inequality with applications to statistical estimation for probabilistic functions of Markov processes and to a model for ecology”. Bulletin of the American Mathematical Society 73 (3): 360. doi:10.1090/S0002-9904-1967-11751-8. Zbl 0157.11101. http://projecteuclid.org/euclid.bams/1183528841.
^ Baum, L. E.; Sell, G. R. (1968). “Growth transformations for functions on manifolds”. Pacific Journal of Mathematics 27 (2): 211–227. doi:10.2140/pjm.1968.27.211. https://www.scribd.com/doc/6369908/Growth-Functions-for-Transformations-on-Manifolds 2011年11月28日閲覧。.
^ Baum, L. E.; Petrie, T.; Soules, G.; Weiss, N. (1970). “A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains”. The Annals of Mathematical Statistics 41 (1): 164–171. doi:10.1214/aoms/1177697196. JSTOR 2239727. MR287613. Zbl 0188.49603.
^ Baum, L.E. (1972). “An Inequality and Associated Maximization Technique in Statistical Estimation of Probabilistic Functions of a Markov Process”. Inequalities 3: 1–8.

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像