7-1 MNISTデータセットとは?

MNISTデータセットには、

  1. 訓練用画像データ
  2. それに対応した訓練用ラベルデータ
  3. テスト用画像データ
  4. それに対応したテスト用ラベルデータ

の4つのファイルがあり、「THE MNIST DATABASE of handwritten digits」ページからダウンロードできます。

ただしこれらはgzファイルなので、Windowsなら7-Zipアプリなどで展開する必要があります。たとえば「train-images-idx3-ubyte.gz」を展開すると、「train-images.idx3-ubyte」が現れるので、これを使用します。

train-images.idx3-ubyteファイルには、28×28の画像データが60,000個分含まれています。

しかしこれは、コンピュータ向けのバイナリファイルなので、データを抽出するにはファイルの情報がいります。

THE MNIST DATABASE of handwritten digits」ページを下にスクロールすると、次の表があります。ここには、train-images.idx3-ubyteファイルのフォーマットが書かれています。

この表は、下図のように読み取ることができます。

以降では、この情報を元に、「train-images.idx3-ubyte」ファイルから画像データを読み取っていきます。

また、ラベルデータについても同様の表が掲載されており、これを元にラベルデータを読み取っていきます。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA