Sciweavers

Free Online Productivity Tools i2Speak i2Symbol i2OCR iTex2Img iWeb2Print iWeb2Shot i2Type iPdf2Split iPdf2Merge i2Bopomofo i2Arabic i2Style i2Image i2PDF iLatex2Rtf Sci2ools

14

ECML
2007
Springer

favoriteEmaildiscussreport

192views Machine Learning» more ECML 2007»

Policy Gradient Critics

13 years 10 months ago

Policy Gradient Critics

Download www.idsia.ch

We present Policy Gradient Actor-Critic (PGAC), a new model-free Reinforcement Learning (RL) method for creating limited-memory stochastic policies for Partially Observable Markov Decision Processes (POMDPs) that require long-term memories of past observations and actions. The approach involves estimating a policy gradient for an Actor through a Policy Gradient Critic which evaluates probability distributions on actions. Gradient-based updates of history-conditional action probability distributions enable the algorithm to learn a mapping from memory states (or event histories) to probability distributions on actions, solving POMDPs through a combination of memory and stochasticity. This goes beyond previous approaches to learning purely reactive POMDP policies, without giving up their advantages. Preliminary results on important benchmark tasks show that our approach can in principle be used as a general purpose POMDP algorithm that solves RL problems in both continuous and discrete ac...

Daan Wierstra, Jürgen Schmidhuber

Real-time Traffic

Action Probability Distributions | ECML 2007 | Machine Learning | Policy Gradient | Probability Distributions |

claim paper

Related Content

» Natural ActorCritic

» Incremental Natural ActorCritic Algorithms

» Predictive representations for policy gradient in POMDPs

» An RLSBased Natural ActorCritic Algorithm for Locomotion of a TwoLinked Robot Arm

» Applying the Episodic Natural ActorCritic Architecture to Motor Primitive Learning

» Exploiting locality of interactions using a policygradient approach in multiagent learning

» Variance Reduction Techniques for Gradient Estimates in Reinforcement Learning

» Bayesian actorcritic algorithms

» Thermal Balancing Policy for Streaming Computing on Multiprocessor Architectures

Post Info
More Details (n/a)

Added	07 Jun 2010
Updated	07 Jun 2010
Type	Conference
Year	2007
Where	ECML
Authors	Daan Wierstra, Jürgen Schmidhuber

Comments (0)