HOME > BOOK >

『強化学習』

Sutton, Richars S. & Barto, Andrew G 1998 Reinforcement Learning,The MIT Press.
=20001220 三上 貞芳・皆川 雅章,森北出版,351p.

Tweet
last update:20171024

このHP経由で購入すると寄付されます


■Sutton, Richars S. & Barto, Andrew G 1998 Reinforcement Learning,The MIT press. =20001220 三上 貞芳・皆川 雅章 『強化学習』,森北出版,351p ISBN-10:4627826613 ISBN-13:978-4627826618 4800+ [amazon][kinokuniya]

■内容

[amazon]より

内容紹介

「強化学習」入門の決定版!
強化学習を機械学習の一大分野にまで発展させた立役者自らが,初学者のために書き下ろした不朽のテキスト.
強化学習の発想から,定式化・解法・応用まで,言葉を尽くして解説する.

内容(「MARC」データベースより)

人工知能問題やロボティクス、マルチエージェントなどへの応用で注目される強化学習。その基本的な考え方から、関連アルゴリズム、応用例までを網羅しており、初学者から先端的研究者までを対象とする一冊。

■目次

 I部:強化学習問題(序章,評価フィードバック,強化学習問題) II部:解決手法の基礎(動的計画法,モンテカルロ法,TD学習) V部:統一された見方(適格度トレース,一般化と関数近似,プランニングと学習,強化学習の特徴軸,ケーススタディ)
Part 1 強化学習問題
1 序章
 1.1 強化学習
 1.2 例
 1.3 強化学習の構成要素
 1.4 拡張された例:三目並べ
 1.5 まとめ
 1.6 強化学習の歴史
 1.7 補足(文献と歴史)
2 評価フィードバック
 2.1 n本腕バンディット問題
 2.2 行動価値手法
 2.3 ソフトマックス行動選択
 2.4 評価と教示*
 2.5 漸進的手法による実装
 2.6 非定常問題への追従
 2.7 オプティミスティック初期値
 2.8 強化比較*
 2.9 追跡手法*
 2.10 連想探索*
 2.11 結論
 2.12 補足(文献と歴史)
3 強化学習問題
 3.1 エージェントと環境間のインタフェース
 3.2 目標と報酬
 3.3 収益
 3.4 エピソード的タスクと連続タスクの統一的記述
 3.5 マルコフ性*
 3.6 マルコフ決定過程
 3.7 価値関数
 3.8 最適価値関数
 3.9 最適性と近似
 3.10 要約
 3.11 補足(文献と歴史)
Part 2 基本的な解法群
4 動的計画法
 4.1 方策評価
 4.2 方策改善
 4.3 方策反復
 4.4 価値反復
 4.5 非同期動的計画法
 4.6 一般化方策反復
 4.7 動的計画法の効率
 4.8 まとめ
 4.9 補足(文献と歴史)
5 モンテカルロ法
 5.1 モンテカルロ法による方策評価
 5.2 モンテカルロ法による行動価値推定
 5.3 モンテカルロ法による制御
 5.4 方策オン型モンテカルロ法による制御
 5.5 他の方策に追従する方策評価
 5.6 方策オフ型モンテカルロ法による制御
 5.7 漸進的実装
 5.8 まとめ
 5.9 補足(文献と歴史)
6 TD学習
 6.1 TD予測
 6.2 TD予測法の利点
 6.3 TD(0)の最適性
 6.4 Sarsa: 方策オン型TD制御
 6.5 Q学習: 方策オフ型TD制御
 6.6 アクター・クリティック手法*
 6.7 R学習: 割引のない連続タスクのための学習法*
 6.8 ゲーム,事後状態,および他の特殊なケース
 6.9 まとめ
 6.10 補足(文献と歴史)
Part 3 統一された見方
7 適格度トレース
(以下略)

■引用

■書評・紹介

■言及



*作成:岩ア 弘泰
UP:20171024 REV:
身体×世界:関連書籍  ◇BOOK

TOP HOME (http://www.arsvi.com)