MNISTデータセットには、
- 訓練用画像データ
- それに対応した訓練用ラベルデータ
- テスト用画像データ
- それに対応したテスト用ラベルデータ
の4つのファイルがあり、「THE MNIST DATABASE of handwritten digits」ページからダウンロードできます。
ただしこれらはgzファイルなので、Windowsなら7-Zipアプリなどで展開する必要があります。たとえば「train-images-idx3-ubyte.gz」を展開すると、「train-images.idx3-ubyte」が現れるので、これを使用します。
train-images.idx3-ubyteファイルには、28×28の画像データが60,000個分含まれています。
しかしこれは、コンピュータ向けのバイナリファイルなので、データを抽出するにはファイルの情報がいります。
「THE MNIST DATABASE of handwritten digits」ページを下にスクロールすると、次の表があります。ここには、train-images.idx3-ubyteファイルのフォーマットが書かれています。
この表は、下図のように読み取ることができます。
以降では、この情報を元に、「train-images.idx3-ubyte」ファイルから画像データを読み取っていきます。
また、ラベルデータについても同様の表が掲載されており、これを元にラベルデータを読み取っていきます。