13_1 カートポールサンプル シンプルバージョン

次の動画は、本稿で最終的に作成するカートポールサンプルの実行画面を録画したものです。

カートポールとは、車輪の付いた台座(カート)の上に細長い棒(ポール)を置いものを言います。カートポールサンプルは、強化学習と呼ばれる機械学習でよく取り上げられる例で、ふらつくポールを倒さないようにカートを左右に動かし、できるだけ長くいられるようにモデルを訓練する、というものです。

ビデオで表示されているカートのアニメーションの下にある「繰り返し」、「ゲーム」、「ステップ」は下図に示す関係を持っています。

1ステップは、ポールが倒れるかカートが左右、どちらかの境界を超えるまでの時間です。これを複数回繰り返すのが1ゲームです。ゲームも複数回繰り返され、指定回数に達すると、1回の訓練になります。この1回の訓練も複数回繰り返されます。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA