
MNISTデータベース(英: MNIST database, Modified National Institute of Standards and Technology databaseの略)は、さまざまな画像処理システムの学習に広く使用される手書き数字画像の大規模なデータベース[1][2]。米国商務省配下の研究所が構築したこのデータベースは、機械学習分野での学習や評価に広く用いられている[3][4]

MNIST sample images


MNISTデータベースは、もともとNISTが保有していたデータセットに含まれるサンプルを再構成することによって作成されたデータベースである[5]。元のデータセットでは、学習データセットが国勢調査局の従業員から取得したものであるのに対し、評価データセットは米国の高校生から取得したものであるため、MNISTデータベースの作成者は、そのままでは機械学習の実験には適さないと感じていた[6][注釈 1]。また、NISTのデータベースに含まれる画像は当初白黒であったが、28x28ピクセルの範囲に収まるようにサイズが正規化され、グレースケール画像になるようアンチエイリアス処理も行われた。



MNISTデータベースには、NISTの2つのデータベース(Special Database 1とSpecial Database 3)の組み合わせからなる画像群が含まれている。2つのデータベースはそれぞれ、高校生と米国国勢調査局の従業員が手で書いた数字の画像で構成されている[6]





2011年には、従来の最良の結果を改善して誤検知率0.27%を達成したことが、同様のニューラルネットワークを用いた研究で報告された[15]。2013年には、DropConnect[注釈 2]と呼ばれる正則化手法を用いたニューラルネットワークで、誤検知率0.21%を達成したとする研究も現れた[16]。2016年時点で、単一の畳み込みニューラルネットワーク(CNN)を用いた実験に限ると、誤検知率0.25%が最も良い[17]。また2018年8月時点で、データ拡張を使用せずにMNISTで学習した単一の畳み込みニューラルネットワークの最高精度もまた、誤検知率0.25%である[18]。単一のCNNに限らなければ、Parallel Computing Center(ウクライナフメリニツキー)が、5つのCNNを用いたアンサンブル学習により誤検知率0.21%を達成している[19][20]。2018年には、バージニア大学の研究者が、3種類のニューラルネットワーク(fully connected, recurrent, convolutional)を並列させたネットワークを用いて誤検知率0.18%を達成したと発表している[21]。なお、テストデータセット内の画像にはほとんど読み取れないような識別難度の高いものも含まれている[22]



分類器の種別 分類器の説明


歪み加工 前処理 誤検知率(%)
線形分類器 ペアワイズ線形分類器 自動傾き補正 7.6[10]
ランダム化された木を使用したデジションストリーム[注釈 3] 単一モデル(深さ400以上) 2.7[24]
K近傍法 非線形変換を伴うK-NN(P2DHMDM) エッジずらし 0.52[25]
決定株のブースト Haar特徴を用いた決定株のブースト Haar特徴量 0.87[26]
サポートベクターマシン(SVM) 仮想SVM 自動傾き補正 0.56[27]
ディープニューラルネットワーク(DNN) 2層 784-800-10 1.6[28]
ディープニューラルネットワーク 2層 784-800-10 弾性歪み 0.7
ディープニューラルネットワーク 6層 784-2500-2000-1500-1000-500-10 弾性歪み 0.35[29]
畳み込みニューラルネットワーク (CNN) 6層 784-40-80-500-1000-2000-10 学習データの拡張 0.31[30]
畳み込みニューラルネットワーク 6層 784-50-100-500-1000-10-10 学習データの拡張 0.27[31]
畳み込みニューラルネットワーク 13層 64-128(5x)-256(3x)-512-2048-256-256-10 0.25[17]
畳み込みニューラルネットワーク 35個のCNNの組み合わせ、1-20-P-40-P-150-10 弾性歪み 幅の正規化 0.23[12]
畳み込みニューラルネットワーク 5つのCNNの組み合わせ, 6層 784-50-100-500-1000-10-10 学習データの拡張 0.21[19][20]
ランダムマルチモデルディープラーニング(RMDL) 10個のニューラルネットワーク, 10個のリカレントニューラルネットワーク、10個の畳み込みニューラルネットワーク 0.18[21]


permuted MNIST (pMNIST) タスクはピクセル並び替えにより空間情報が失われたMNISTの分類タスクである[32]。MNISTは2次元の画像であり隣接ピクセル同士に文字ごとで異なる相関がある。ゆえにConvのような空間に関する帰納バイアスを利用して効率的に解くことができる。ある種のタスクではそのような空間情報によるバイアス無しでの性能評価が望ましい(例: 長系列予測)。pMNISTではピクセルの位置を完全にシャッフルしたうえで固定し、これを用いた分類タスクとする。これにより文字ごとの隣接ピクセル間相関差が消滅し、空間バイアスのないデータセットによるモデル評価が可能になる。


  1. 一般に、どのような機械学習アルゴリズムを用いて精度の高いモデルを作成したとしても、学習に用いたデータの分布を外れたデータに対しては、正しい結果を返すとは限らない[7]。そのため、NISTがもともと保持していたデータセットのように学習データと評価データの分布が大きく異なる場合には、評価データによる評価が用をなさないおそれがある。
  2. 正規化手法の一種。ネットワークの過学習を抑えることが目的で、訓練段階ごとにノード間をつなぐ接続のいくつかを一定の確率で無効にする手法。特定のノードや接続が、特定の学習サンプルに過度に適合することを防ぐことが期待される[16]
  3. 決定木の拡張。決定木同様、一定の方向に分枝していく点は同じだが、一つのノードに複数の枝が流入することがある点が異なる[23]



