Programación dinámica y aprendizaje por reforzamiento.

El objetivo de este curso tutorial es aprender las ideas básicas de la teoría del aprendizaje reforzado y aplicarlas en el desarrollo de un proyecto práctico de software que tenga una componente de investigación.

Textos: El texto principal del curso será [BRL] y lo seguiremos como guía organizacional. No obstante, las explicaciones de este texto son insuficientes y los presentadores deben leer las secciones pertinentes de [BRL, BS, BADP y BND] para tener una idea más amplia y clara de los temas y poder dar mejores presentaciones. Los textos DPOCV1/2 son tambien referencias útiles.

  • [BRL] Bertsekas D.: Reinforcement Learning and Optimal Control, Athena Scientific (2019)
  • [BS] Sutton R., Barto A.: Reinforcement Learning: An introduction, The MIT press (2018)
  • [BADP] Bertsekas D.: Abstract dynamic programming, Athena Scientific (2013)
  • [BND] Bertsekas D., Tsitsiklis J.: Neuro-dynamic programming, Athena Scientific (1996)
  • [DPOCV1] Bertsekas D.: Dynamic programming and Optimal Control V. 1, Athena Scientific (1995)
  • [DPOCV2] Bertsekas D.: Dynamic programming and Optimal Control V. 2, Athena Scientific (1995)

Metodología y Evaluación: Durante este curso las clases estarán a cargo del instructor y de los participantes. Concretamente las 16 semanas del semestre estarán dedicadas a los temas del curso siguiendo el cronograma detallado de abajo (que a su vez sigue el índice de [BRL]).

Para cada clase el presentador debe preparar notas (y ponerlas antes de clase en nuestro proyecto de overleaf (ver detalles abajo)), preparar y dictar la clase y recibirá una evaluación por cada una de estas dos actividades (25% y 25% de la nota del curso respectivamente). Se espera que los participantes hayan leido las notas del presentador (y las referencias adicionales sobre el tema ANTES de la presentación con la intención de que haya discusión y se puedan internalizar los conceptos). Adicionalmente el 50% restante de la nota del curso dependerá del software que produzcan sus proyectos (ver aparte proyectos abajo para ver la formulación de los proyectos mismos, las ENTREGAS con sus respectivas fechas y los responsables de cada proyecto). Cada estudiante (´o asistente al curso) debe participar de exáctamente dos proyectos.

  • Cronograma semanal del curso con presentadores (*por favor prepárense con tiempo pues la calidad del curso depende de la de sus notas y presentaciones): [ver Cronograma]
  • Notas colaborativas del curso (en Overleaf):
    • Link para visualizar las notas: [link]
    • Link para editar las notas (para cuando uds. presenten): [link]
  • Información de los proyectos (*LEER CON DETALLE): [Especificaciones del proyecto]