• Inicio

    Del 28 de mayo al 22 de junio de 2012.

    Materia corta del Programa de Profesores Visitantes.

    Profesor: Dr. Carlos "Greg" Diuk (Dept. of Psychology y Neuroscience Institute, Princeton University, EEUU).

    Objetivos: Aprendizaje por refuerzos (AR, o RL en inglés) es un sub-área dentro de aprendizaje automático que estudia cómo un agente (un animal, humano, robot o programa) aprende mediante interacción directa con su ambiente, sin la intervención de un supervisor que le dice qué tiene que hacer. La disciplina nació a fines de los años ’80 inspirada en antiguos modelos de aprendizaje provenientes de la psicología, principalmente de los estudios sobe condicionamiento Pavloviano e instrumental. Su desarrollo desde las Ciencias de la Computación en los '90 llevó a importantes avances teóricos y aplicaciones en robótica, optimización y en juegos como el Backgammon y el Go. En los últimos 15 años, AR computacional también ha producido una revolución en neurociencia, en las áreas de aprendizaje y toma de decisiones. En este curso estudiaremos el formalismo de AR computacional y los algoritmos más importantes, contextualizándolo desde sus orígenes en psicología hasta el rol que cumple hoy en los estudios sobre aprendizaje en el cerebro.

    Puntaje: 2 puntos para la Licenciatura; 2 puntos para el Doctorado (en trámite).

    Carga horaria: Clases teórico/prácticas, 10 horas semanales, 4 semanas.

    Horario: Martes y jueves de 13 a 17h (laboratorio 5 del DC); consultas de 17 a 18h.

    Forma de evaluación: Trabajo práctico; exámenes parcial y final.

    Materias correlativas: Algoritmos y Estructuras de Datos 2.

    Inscripción: Por mail, escribiendo a dcosta (at) dc.uba.ar.

    Programa:

    • Introducción a la toma de decisiones: definición del problema, antecedentes en psicología desde Pavlov hasta hoy, teorías de aprendizaje animal.
    • Bandidos de k-brazos. El dilema exploración-explotación. Algoritmos (cuasi-)óptimos. Complejidad computacional vs. complejidad de aprendijzaje.
    • El problema de los delayed rewards y la asignación de crédito. Aprendizaje por refuerzos: cómo solucionar los problemas de las teorías de condicionamiento.
    • Formalizando RL: los Procesos de Decisión de Markov (MDPs). Definición de valor. Algoritmos para resolver un MDP mediante programación dinámica y programación lineal.
    • Algoritmos de aprendizaje model-free: Q-learning, TD(lambda), SARSA. El problema de la exploración en esquemas model-free. Complejidad.
    • Algoritmos de aprendizaje model-based: la familia R-Max. Exploración cuasi-óptima en algoritmos model-based. Complejidad. El problema de planning.
    • Planning avanzado: Sample-based planning. Monte Carlo Tree Search y su impacto en el juego de Go.
    • Representaciones avanzadas: MDP factorizados, relacionales y orientados a objetos. Algoritmos de aprendizaje bajo estas representaciones.
    • Modelos jerárquicos: descomponiendo un problema en sub-problemas. Descubrimiento automático de sub-objetivos. Algoritmos para RL jerárquico.
    • Aplicaciones en robótica. Breve introducción a algoritmos de policy-search, y descripción detallada de la solución utilizada en el vuelo de helicóptero invertido.
    • Aplicaciones en juegos: backgammon, Go. Aplicaciones en videojuegos comerciales.
    • Aprendizaje por refuerzos en neurociencias: el rol de la dopamina en el cerebro. Algoritmos de RL en el cerebro: estudios de electrofisiología y resonancia magnética funcional.
    • Tópicos avanzados: se dedicarán las últimas 2 o 3 clases a otros tópicos avanzados, a decidir en base a los intereses del curso.
       

    Bibliografía: (todo el material está disponible gratuitamente online)


    Acerca del Profesor:

    Carlos "Greg" Diuk completó su Licenciatura en Ciencias de la Computación en la UBA en 2003. Realizó su Doctorado en Rutgers University (Nueva Jersey, EEUU) especializándose en Reinforcement Learning, bajo la dirección de Michael Littman. Actualmente es investigador postdoctoral en el Departamento de Psicología y Neurociencias de Princeton University, donde estudia aprendizaje y toma de decisiones en humanos utilizando modelado computacional, experimentos comportamentales y técnicas de neuroimaging (fMRI, EEG).