線形分類器

線形分類器（英: Linear classifier）は、特徴の線形結合の値に基づいて分類を行う確率的分類器である。機械学習において、分類は項目群を特徴値に基づいてグループに分類することを目的とする。

定義

分類器への入力特徴ベクトルが実数ベクトル ${\vec {x}}$ であるとき、出力のスコアは次のようになる。

y=f({\vec {w}}\cdot {\vec {x}})=f\left(\sum _{j}w_{j}x_{j}\right)

ここで、 ${\vec {w}}$ は重み付けの実数ベクトル、f は2つのベクトルのドット積を必要な出力に変換する関数である。重み付けベクトル ${\vec {w}}$ はラベル付き訓練例で学習することで変化していく。f はあるしきい値以上の値を第一クラスに分類し、それ以外を第二クラスに分類するといった単純な関数であることが多い（二項分類）。より複雑な f としては、ある項目があるクラスに属する確率を与えるものなどがある。

二項分類問題は、高次元の入力空間を超平面で分割する操作として視覚化できる。その超平面の一方の側にある点は分類において "yes" とされた点であり、もう一方の側にある点は "no" とされた点である。

線形分類器は、特に ${\vec {x}}$ が疎であるとき最も高速な分類器であるため、分類の速度が重要な場合に使われることが多い。ただし、決定木の方が速い場合もある。また、線形分類器は ${\vec {x}}$ の次元が大きいときにうまく機能する。例えば、文書分類において ${\vec {x}}$ の各要素は文書における個々の単語の出現回数などになる。そのような場合、線形分類器は正則化されているべきである。

生成的モデルと識別的モデル

線形分類器 ${\vec {w}}$ のパラメータを決定する方法には、生成的モデルと識別的モデルという2つの大分類がある^[1]^[2]。1番目の生成的モデルは、条件付き確率 $P({\vec {x}}|{\rm {class}})$ をモデル化したものである。そのようなアルゴリズムの例として次のようなものがある。

線形判別分析 (LDA) - 正規分布モデルかつ等分散性を仮定する。
単純ベイズ分類器 - 独立二項分布モデルを仮定する。

2番目の識別モデルは、訓練例（英語版）の出力の品質を最大化しようとするものである。訓練コスト関数に項を追加することで、最終モデルの正則化を容易に行うことができる。線形分類器の識別的な訓練例として次のようなものがある。

ロジスティック回帰 - 観測された訓練例が分類器の出力に依存した二項分布モデルで生成されたものと見なし、 ${\vec {w}}$ を最尤推定する。
パーセプトロン - 訓練例の学習時に発生した全ての誤りを正そうとするアルゴリズム
線形サポートベクターマシン - 判断超平面と訓練例との間の余白を最大化するアルゴリズム

なお英語でいうと、線形判別分析（Linear Discriminant Analysis）と識別モデル（Discriminative Model）は関連がありそうだが、上のように分類されている。LDAは主成分分析（Principal Component Analysis、PCA）との対比で意味を持つ名前である。LDAは教師あり学習アルゴリズムであり、PCAは教師なし学習アルゴリズムである。^[3]

識別訓練は条件付き確率分布をモデル化する方式よりも正確であることが多い。しかし、欠落データの扱いは条件付き確率分布モデルの方が容易なことが多い。

上述の線形分類器のアルゴリズムはいずれも、カーネルトリックを使って、異なる入力空間 $\varphi ({\vec {x}})$ 上の非線形アルゴリズムに変換できる。

脚注

^ T. Mitchell, Generative and Discriminative Classifiers: Naive Bayes and Logistic Regression. Draft Version, 2005 download(PDF)
^ A. Y. Ng and M. I. Jordan. On Discriminative vs. Generative Classifiers: A comparison of logistic regression and Naive Bayes. in NIPS 14, 2002. download(PS)
^ R.O. Duda, P.E. Hart, D.G. Stork, "Pattern Classification", Wiley, (2001). ISBN 0-471-05669-3

参考文献

Y. Yang, X. Liu, "A re-examination of text categorization", Proc. ACM SIGIR Conference, pp. 42-49, (1999). paper @ citeseer
R. Herbrich, "Learning Kernel Classifiers: Theory and Algorithms," MIT Press, (2001). ISBN 0-262-08306-X

位置	平均算術幾何調和中央値分位数順序統計量最頻値階級値
分散	範囲偏差偏差値標準偏差標準誤差変動係数決定係数相関係数自己相関共分散自己共分散分散共分散行列百分率統計的ばらつき
モーメント	分散歪度尖度

カテゴリデータ

頻度
分割表

推計統計学

仮説検定

パラメトリック	t検定ウェルチのt検定 F検定 Z検定二項検定ジャック-ベラ検定シャピロ–ウィルク検定分散分析共分散分析
ノンパラメトリック	ウィルコクソンの符号順位検定マン・ホイットニーのU検定カイ二乗検定イェイツのカイ二乗検定累積カイ二乗検定フィッシャーの正確確率検定尤度比検定 G検定アンダーソン–ダーリング検定コルモゴロフ–スミルノフ検定カイパー検定マンテル検定コクラン・マンテル・ヘンツェルの統計量
その他	帰無仮説対立仮説有意棄却

区間推定

モデル選択基準

その他

ベイズ統計学

確率	主観確率ベイズ確率事前確率事後確率最大事後確率
その他	ベイズ推定ベイズ因子

相関

モデル

回帰

線形	リッジ回帰ラッソ回帰エラスティックネット
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシン射影追跡回帰
時系列	自己回帰モデル自己回帰移動平均モデル ARCHモデル対移動平均比率法トレンド定常傾向推定共和分構造変化

分類

線形	線形判別分析ロジスティック回帰 <! -- 名前に回帰とついていますが確率を回帰する分類手法です --> 単純ベイズ分類器単純パーセプトロン線形サポートベクターマシン
二次	二次判別分析
非線形	k近傍法決定木ランダムフォレストニューラルネットワークサポートベクターマシンベイジアンネットワーク隠れマルコフモデル
その他	二項分類多クラス分類第一種過誤と第二種過誤

教師なし学習

クラスタリング	k平均法（k-means++法） DBSCAN
密度推定（英語版）	カーネル密度推定（カーネル）
その他	主成分分析独立成分分析自己組織化写像