機械学習の入門の例として、あやめの花の分類があります。これは、あやめの品種であるsatosaとversicolor、virginicaそれぞれのがく片の長さと幅、花びらの長さと幅を持つデータを使ってモデルを訓練し、未知のデータの品種を推測しようというものです。
元になるデータは、アイリス花データセットと呼ばれ、ここで公開されています。
データ自体は、エクセルのシートで表すと、次のようなものです。
satosaとversicolor、virginicaのがく片の長さを横軸に、幅を縦軸にプロットすると、次のようになります。
これを見ると、satosaの分類は容易そうですが、versicolorとvirginicaの分類は難しそうに見えます。つまり、versicolorとvirginicaのがく片の長さと幅はよく似ているのです。
また、satosaとversicolor、virginicaの花びらの長さを横軸に、幅を縦軸にプロットすると、次のようになります。
この場合も、satosaの分類は容易そうですが、versicolorとvirginicaは少し重なっているので、難しそうに見えます。