Least absolute policy iteration for robust value function approximation

13 years 11 months ago

Download sugiyama-www.cs.titech.ac.jp

Abstract— Least-squares policy iteration is a useful reinforcement learning method in robotics due to its computational efﬁciency. However, it tends to be sensitive to outliers in observed rewards. In this paper, we propose an alternative method that employs the absolute loss for enhancing robustness and reliability. The proposed method is formulated as a linear programming problem which can be solved efﬁciently by standard optimization software, so the computational advantage is not sacriﬁced for gaining robustness and reliability. We demonstrate the usefulness of the proposed approach through simulated robot-control tasks.

Masashi Sugiyama, Hirotaka Hachiya, Hisashi Kashim

Real-time Traffic

ICRA 2009 | Least-squares Policy Iteration | Reinforcement Learning Method | Robotics | Robustness |

claim paper

Related Content

» PointBased Policy Iteration

» Hybrid LeastSquares Algorithms for Approximate Policy Evaluation

» LeastSquares Temporal Difference Learning

» Global Optimization for Value Function Approximation

» Basis Function Construction in Reinforcement Learning Using CascadeCorrelation Learning Ar...

Post Info
More Details (n/a)

Added	23 May 2010
Updated	23 May 2010
Type	Conference
Year	2009
Where	ICRA
Authors	Masashi Sugiyama, Hirotaka Hachiya, Hisashi Kashima, Tetsuro Morimura

Comments (0)

Sciweavers

Least absolute policy iteration for robust value function approximation

ICRA 2009 | Least-squares Policy Iteration | Reinforcement Learning Method | Robotics | Robustness |

Explore & Download

Productivity Tools

Document Tools

Image Tools

Sciweavers