Search Sciweavers | Sciweavers

163 search results - page 5 / 33

» Policy Gradient Methods for Robotics

142

click to vote

ICANN
2007
Springer

95views Neural Networks» more ICANN 2007»

Solving Deep Memory POMDPs with Recurrent Policy Gradients

16 years 20 days ago

Download www.idsia.ch

Abstract. This paper presents Recurrent Policy Gradients, a modelfree reinforcement learning (RL) method creating limited-memory stochastic policies for partially observable Markov...

Daan Wierstra, Alexander Förster, Jan Peters,...

claim paper

Read More »

188

click to vote

ICMLA
2010

203views Machine Learning» more ICMLA 2010»

Multimodal Parameter-exploring Policy Gradients

15 years 4 months ago

Download www6.in.tum.de

Abstract-- Policy Gradients with Parameter-based Exploration (PGPE) is a novel model-free reinforcement learning method that alleviates the problem of high-variance gradient estima...

Frank Sehnke, Alex Graves, Christian Osendorfer, J...

claim paper

Read More »

170

click to vote

NIPS
2008

116views Information Technology» more NIPS 2008»

Particle Filter-based Policy Gradient in POMDPs

15 years 8 months ago

Download eprints.pascal-network.org

Our setting is a Partially Observable Markov Decision Process with continuous state, observation and action spaces. Decisions are based on a Particle Filter for estimating the bel...

Pierre-Arnaud Coquelin, Romain Deguest, Rém...

claim paper

Read More »

199

Voted

JMLR
2006

124views more JMLR 2006»

Policy Gradient in Continuous Time

15 years 6 months ago

Download hal.inria.fr

Policy search is a method for approximately solving an optimal control problem by performing a parametric optimization search in a given class of parameterized policies. In order ...

Rémi Munos

claim paper

Read More »

145

click to vote

AIPS
2007

119views Artificial Intelligence» more AIPS 2007»

Concurrent Probabilistic Temporal Planning with Policy-Gradients

15 years 8 months ago

Download eprints.pascal-network.org

We present an any-time concurrent probabilistic temporal planner that includes continuous and discrete uncertainties and metric functions. Our approach is a direct policy search t...

Douglas Aberdeen, Olivier Buffet

claim paper

Read More »

« Prev « First page 5 / 33 Last » Next »

Sciweavers

Explore & Download

Productivity Tools

Sciweavers