強くなるロボティック・ゲームプレイヤーの作り方勉強会「3章強化学習後半」

2017/04/25(火)20:00 〜 22:00 開催

ブックマーク

Python, ゲーム, プログラミング

イベント内容

発表形式を想定しています。
こちらの本を進めていく予定です。
発表してくださる方募集中！！

強化学習
https://www.morikita.co.jp/books/book/1990
強くなるロボティック・ゲームプレイヤーの作り方
https://book.mynavi.jp/ec/products/detail/id=52804
強化学習
https://www.morikita.co.jp/books/book/1990
http://neuro.bstu.by/ai/RL-3.pdf
オススメの本
https://www.morikita.co.jp/books/book/3034

ソース

Reinforcement Learning: An Introduction Python code for Sutton & Barto's book Reinforcement Learning: An Introduction (2nd Edition)
https://github.com/dennybritz/reinforcement-learning
Implementation of Reinforcement Learning Algorithms. Python, OpenAI Gym, Tensorflow. Exercises and Solutions to accompany Sutton's Book and David Silver's course.
https://github.com/ShangtongZhang/reinforcement-learning-an-introduction
A course in reinforcement learning in the wild
https://github.com/yandexdataschool/Practical_RL
techcircle_openai_handson
https://github.com/icoxfog417/techcircle_openai_handson

おまけ

some common TD Learning algorithms
https://github.com/chrodan/tdlearn

スケジュール

輪読本 https://book.mynavi.jp/ec/products/detail/id=52804

【4月】：強化学習
~~１週目：gym入門など●~~
~~２週目：~~
　　　　~~1章 “強くなる”ロボティック・ゲームプレイヤーを作るには~~
　　　　~~2章学習とは?~~
~~３週目：~~
　　　　~~3章強化学習●~~
　　　　　~~3.1 強化学習の背景~~
　　　　　~~3.2 強化学習の構成~~
　　　　　~~3.3 マルコフ決定過程~~
　　　　　~~3.4 最適政策関数~~
４週目：
　　　　3章強化学習●
　　　　　3.5 状態価値関数
　　　　　3.6 状態・行動価値関数
　　　　　3.7 動的計画法の問題点
【5月】：強化学習
１週目：
お休み
２週目：
　　　　4章　離散的な空間での学習●
　　　　　4.1　はじめに
　　　　　4.2　ルックアップテーブルで表される価値関数の例
　　　　　4.3　標本を抽出する
　　　　　4.4　モンテカルロ法
３週目：
　　　　4章　離散的な空間での学習
　　　　　4.5　価値関数近似における教師付き学習
　　　　　4.6　TD法
　　　　　4.7　Q学習
　　　　　4.8　三目並べ(Tic-Tac-Toe)の例
　　　　　4.9　実行例
４週目：
suttonに変える？
５週目：
【6月】：強化学習
１週目：
２週目：
３週目：
４週目：
【7月】：強化学習
１週目：
２週目：
３週目：
４週目：

以降〜
　　　　5章　連続的な空間での学習
　　　　　5.5　カーネルモデル
　　　　　5.6　線形モデルの最小二乗推定
　　　　　5.7　カーネルモデルの最小二乗推定
　　　　　5.8　アクロボットの例

5章　連続的な空間での学習
　　　　　5.1　はじめに
　　　　　5.2　台車の山登りゲーム
　　　　　5.3　価値関数の近似誤差
　　　　　5.4　価値関数のモデル

6章　政策を直接近似する
　　　　　6.1　はじめに
　　　　　6.2　政策勾配法
　　　　　6.3　最小分散ベースライン
　　　　　6.4　ガウスモデル政策モデル
　　　　6章　政策を直接近似する
　　　　　6.5　自然政策勾配法
　　　　　6.6　政策勾配の例
　　　　　6.7　4足ロボットへの実装

次の輪読テーマ募集！！