Sciweavers

Free Online Productivity Tools i2Speak i2Symbol i2OCR iTex2Img iWeb2Print iWeb2Shot i2Type iPdf2Split iPdf2Merge i2Bopomofo i2Arabic i2Style i2Image i2PDF iLatex2Rtf Sci2ools

16

NN
2010
Springer

favoriteEmaildiscussreport

187views Neural Networks» more NN 2010»

Efficient exploration through active learning for value function approximation in reinforcement learning

12 years 11 months ago

Efficient exploration through active learning for value function approximation in reinforcement learning

Download sugiyama-www.cs.titech.ac.jp

Appropriately designing sampling policies is highly important for obtaining better control policies in reinforcement learning. In this paper, we first show that the least-squares policy iteration (LSPI) framework allows us to employ statistical active learning methods for linear regression. Then we propose a design method of good sampling policies for efficient exploration, which is particularly useful when the sampling cost of immediate rewards is high. The effectiveness of the proposed method, which we call active policy iteration (API), is demonstrated through simulations with a batting robot. Keywords reinforcement learning, Markov decision process, least-squares policy iteration, active learning, batting robot

Takayuki Akiyama, Hirotaka Hachiya, Masashi Sugiya

Real-time Traffic

Active Policy Iteration | Least-squares Policy Iteration | Neural Networks | NN 2010 | Policy Iteration |

claim paper

Related Content

» Adaptive Importance Sampling with Automatic Model Selection in Value Function Approximatio...

» SampleEfficient Evolutionary Function Approximation for Reinforcement Learning

» Least absolute policy iteration for robust value function approximation

» Gaussian Processes for Sample Efficient Reinforcement Learning with RMAXLike Exploration

» An empirical analysis of value functionbased and policy search reinforcement learning

» Rollout Sampling Approximate Policy Iteration

» Feature Selection for Value Function Approximation Using Bayesian Model Selection

» Reinforcement Learning with the Use of Costly Features

» Gradient Descent for General Reinforcement Learning

Post Info
More Details (n/a)

Added	20 May 2011
Updated	20 May 2011
Type	Journal
Year	2010
Where	NN
Authors	Takayuki Akiyama, Hirotaka Hachiya, Masashi Sugiyama

Comments (0)