Sciweavers

Free Online Productivity Tools i2Speak i2Symbol i2OCR iTex2Img iWeb2Print iWeb2Shot i2Type iPdf2Split iPdf2Merge i2Bopomofo i2Arabic i2Style i2Image i2PDF iLatex2Rtf Sci2ools

75

ECML
2005
Springer

favoriteEmaildiscussreport

95views Machine Learning» more ECML 2005»

Towards Finite-Sample Convergence of Direct Reinforcement Learning

15 years 5 months ago

Towards Finite-Sample Convergence of Direct Reinforcement Learning

Download www.cs.uiuc.edu

Abstract. While direct, model-free reinforcement learning often performs better than model-based approaches in practice, only the latter have yet supported theoretical guarantees for ﬁnite-sample convergence. A major diﬃculty in analyzing the direct approach in an online setting is the absence of a deﬁnitive exploration strategy. We extend the notion of admissibility to direct reinforcement learning and show that standard Q-learning with optimistic initial values and constant learning rate is admissible. The notion justiﬁes the use of a greedy strategy that we believe performs very well in practice and holds theoretical signiﬁcance in deriving ﬁnite-sample convergence for direct reinforcement learning. We present empirical evidence that supports our idea.

Shiau Hong Lim, Gerald DeJong

Real-time Traffic

Direct Reinforcement | ECML 2005 | Reinforcement Learning | ﬁnite-sample Convergence |

claim paper

Related Content

» FiniteSample Convergence Rates for QLearning and Indirect Algorithms

» A Convergent Reinforcement Learning Algorithm in the Continuous Case The FiniteElement Rei...

» Exploiting Multiple Secondary Reinforcers in Policy Gradient Reinforcement Learning

» Contribution to the Control of a MASs Global Behaviour Reinforcement Learning Tools

» Reinforcement Learning in POMDPs via Direct Gradient Ascent

» Residual Algorithms Reinforcement Learning with Function Approximation

» AlgorithmDirected Exploration for ModelBased Reinforcement Learning in Factored MDPs

» A Convergent Online Single Time Scale Actor Critic Algorithm

» Reinforcement Learning Task Clustering

Post Info
More Details (n/a)

Added	27 Jun 2010
Updated	27 Jun 2010
Type	Conference
Year	2005
Where	ECML
Authors	Shiau Hong Lim, Gerald DeJong

Comments (0)