dc.contributor
Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions
dc.contributor.author
Infante Molina, Guillermo
dc.date.accessioned
2025-05-02T11:48:32Z
dc.date.available
2025-05-02T11:48:32Z
dc.date.issued
2025-02-21
dc.identifier.uri
http://hdl.handle.net/10803/694345
dc.description.abstract
Recent breakthroughs in AI have proven that reinforcement learning can be used successfully to solve
complex sequential decision problems to achieve near-optimal solutions. However, despite the
successful applications that use function approximation techniques, RL algorithms face open
challenges that involve data efficiency and generalization. In this line, hierarchical methods have been
historically applied to simplify learning as much as possible. In this thesis we study how algorithms
can exploit compositionality properties to obtain the optimal solution along with a hierarchical
decomposition of a large problem. To do this, we devise algorithms in which the agent works at
different levels of abstraction to learn a series of base behaviors. These can be combined to optimally
solve a higher level task specification. Such base behavior can be reused in different ways to bring
computational efficiency by reducing the number of learning samples used to solve each problem.
ca
dc.description.abstract
Los avances recientes en IA han demostrado que el aprendizaje por refuerzo puede utilizarse con éxito
para resolver problemas complejos de decisión secuencial y lograr soluciones casi óptimas. Sin
embargo, a pesar de las aplicaciones exitosas que emplean técnicas de aproximación de funciones, los
algoritmos de aprendizaje por refuerzo enfrentan desafíos abiertos que incluyen la eficiencia y la
generalización. Para eso, los métodos jerárquicos se han aplicado históricamente para simplificar el
aprendizaje lo más posible. En esta tesis, estudiamos cómo los algoritmos pueden explotar las
propiedades de composicionalidad para obtener la solución óptima junto con una descomposición
jerárquica de un problema grande. Para ello, diseñamos algoritmos en los que el agente trabaja en
diferentes niveles de abstracción para aprender una serie de comportamientos base. Estos pueden
combinarse para resolver de manera óptima una especificación de tarea de nivel superior y pueden
reutilizarse de diversas maneras para mejorar la eficiencia computacional.
ca
dc.format.extent
109 p.
ca
dc.publisher
Universitat Pompeu Fabra
dc.rights.license
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-sa/4.0/
ca
dc.rights.uri
http://creativecommons.org/licenses/by-nc-sa/4.0/
*
dc.source
TDX (Tesis Doctorals en Xarxa)
dc.subject
Markov decision process
ca
dc.subject
Reinforcement learning
ca
dc.subject
Hierarchical reinforcement learning
ca
dc.subject
Compositionality
ca
dc.subject
Optimal solutions
ca
dc.subject
Temporal abstraction
ca
dc.subject
State abstraction
ca
dc.subject
Generalization
ca
dc.subject
Dynamic-programming
ca
dc.subject
Temporal difference
ca
dc.subject
Artificial intelligence
ca
dc.subject
Machine learning
ca
dc.subject
Machine intelligence
ca
dc.title
Compositionality for hierarchical reinforcement learning
ca
dc.type
info:eu-repo/semantics/doctoralThesis
dc.type
info:eu-repo/semantics/publishedVersion
dc.contributor.authoremail
guiinfmol@yahoo.com
ca
dc.contributor.director
Johnson, Anders
dc.contributor.director
Gómez, Vicenç
dc.rights.accessLevel
info:eu-repo/semantics/openAccess
dc.description.degree
Programa de Doctorat en Tecnologies de la Informació i les Comunicacions
ca