12_1 ボストンデータセット

boston-housing」では、ボストンデータセットと呼ばれる、ボストン市郊外における地域別の住宅価格のデータセットが使われています。このデータは、Googleのデータ保存サイトからそれぞれ、train-data.csv、train-target.csv、test-data.csv、test-target.csvという名前のCSVファイルとして入手できます。

下図の左はtrain-data.csvを、右はtrain-target.csvをエクセルで開いたところです。シートの行は両方とも334あります。1行めには「crim」、「zn」といった住宅価格に関係していそうな属性名が入っているので、各属性のデータ数は333です。
train-target.csvには「medv」という属性が1つだけ含まれています。これは住宅価格です。

train-data.csvの2行め以降と、train-target.csvの2行め以降は対応しています。つまり、train-data.csvの2行めにある各属性の数値によってtrain-target.csvの2行めにある住宅価格になり、3行めにある各属性の数値によってtrain-target.csvの3行めにある住宅価格になっている、という関係性が成立しています。train-data.csvのデータは説明変数として、train-target.csvのデータは目的変数として、モデルの訓練に使用します。

test-data.csvとtest-target.csvの構造と関係性も同様で、データは173個含まれています。train-data.csvとtest-data.csvの1行めに書かれている属性は全部で12あり、以下の意味を持っています。

  • crim 犯罪発生率
  • zn 広い宅地の割合
  • indus 非小売業の土地面積の割合
  • chas 川に近いかどうか
  • nox 窒素酸化物の濃度
  • rm 平均部屋数
  • age 古い家の割合
  • dis 通勤距離
  • rad 幹線道路へのアクセス
  • tax 所得税率
  • ptratio 1教室当たりの生徒数
  • lstat 学校中退率

容易に想像できるのは、たとえばrm(平均部屋数)が大きい値の地域の住宅価格は高いだろうとか、dis(通勤距離)が小さい値の地域も住宅価格は高いだろうとかいう関係性(これは単回帰分析)ですが、そこにたとえばcrim(犯罪発生率)やnox(窒素酸化物の濃度)などが絡んでくると話は複雑になるだろうということも、容易に想像できます。

この問題に対し、よくできたモデルを作成しうまく学習させると、複雑な要因が絡み合う住宅価格を、そのモデルが予測できるようになる、というわけです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA