Hands-on reinforcement learning
Reinforcement Learning (RL) o aprendizaje por refuerzo es una técnica del estado del arte en el campo de la Inteligencia Artificial. Ha mostrado ser exitosa para entrenar agentes capaces de tomar decisiones basados en la experiencia adquirida. Por ejemplo, Alpha Go, desarrollado por Google DeepMind, ganó cuatro de cinco juegos de Go (un popular juego de estrategia chino) al jugador profesional surcoreano Lee Sedol.
Durante el seminario se explorarán los conceptos más importantes de RL, como la caracterización del entorno del agente, la representación de la tarea, y la importancia de la exploración; así como procesos de decisión de Markov y técnicas de aprendizaje típicas tanto para entornos discretos como continuos. Adicionalmente, se abordarán problemas de deep reinforcement learning, donde se requiere la incorporación de redes neuronales densas y convolucionales para que el participante realice el entrenamiento de un agente capaz de desempeñarse en juegos de Atari de OpenAI, como por ejemplo Freeway y Breakout.
Al finalizar el Seminario de Excelencia, el participante contará con una introducción suficiente acerca de aprendizaje por refuerzo que le permitirá profundizar sus intereses en el tema. (p)
Addressed to
Este Seminario de Excelencia está orientado a profesionales y estudiantes interesados en el área de Machine Learning e inteligencia artificial, quienes deseen adquirir conceptos y habilidades prácticas introductorias en el tema de aprendizaje por refuerzo. Conocimientos previos en álgebra lineal, cálculo y habilidades en programación serán útiles para familiarizarse con los conceptos abordados en el curso, así como para implementar algoritmos de RL en entornos y agentes simulados. Aunque las prácticas se realizarán en el lenguaje de programación Python, conocimientos previos en otros lenguajes facilitarán la transición.Goals
Al finalizar el Seminario de Excelencia, el estudiante estará en capacidad de:- Comprender los conceptos base del aprendizaje por refuerzo.
- Identificar y comprender la funcionalidad de los elementos que debe tener un problema formulado como un proceso de decisión de Markov.
- Entrenar agentes para resolver tareas en entornos discretos aplicando Q-learning
- Comprender la arquitectura de Deep Q-learning y la incorporación de redes neuronales densas y convolucionales para entrenar agentes en entornos continuos o que reciben imágenes como observaciones del entorno.
- Entrenar un agente para resolver tareas en juegos de Atari de OpenAI Gym aplicando Deep Q-learning.
Methodology
El Seminario de Excelencia consta de siete sesiones sincrónicas de 3 horas. Cada sesión tiene un limitado componente magistral para introducir nociones básicas de los conceptos y algoritmos de aprendizaje por refuerzo, pero se enfoca principalmente en talleres tipo “manos a la obra” en notebooks de Python. En estos talleres, los estudiantes podrán editar y completar secciones del material, haciendo uso de los conceptos adquiridos en el transcurso del curso. El objetivo final será entrenar un agente que se desempeñe adecuadamente en un juego de Atari, disponible en los entornos de OpenAI Gym, aplicando Deep Q-learning.Content
- Introducción al aprendizaje por refuerzo
- Qué es aprendizaje por refuerzo, RL
- Diferencia respecto a otros algoritmos de Machine Learning
- Elementos de RL
- Tipos de entornos
- Notebooks de Python
- Procesos de Decisión de Markov
- Recompensas y utilidades
- Tareas episódicas y continuas
- Tasa de descuento
- Función de política
- Función de valor del par estado-acción
- Aprendizaje por diferencia temporal
- Técnicas de exploración
- Q-learning
- SARSA
- Diferencias entre Q-learning y SARSA
- Introducción a redes neuronales
- Representación de funciones
- Capas de entrada/ocultas/salida
- Funciones de activación
- Descenso de gradiente y backpropagation
- Aplicación como aproximador de funciones
- Redes neuronales convolucionales, CNNs
- Arquitectura general de una CNN
- Capa convolucional
- Capa de pooling
- Capa totalmente conectada
- Ejemplos
- Deep Q-Learning, DQN
- Arquitectura para DQN
- CNN
- Experience replay
- Target network
- Aplicación de DQN en juegos de Atari
- Arquitectura para DQN
- Avances recientes y aplicaciones
- Avances
- Otros métodos de RL
- RL en entornos multi-agente
- Inverse Reinforcement Learning
- Aplicaciones en: robótica, NLP, vision por computador, entre otras
- Avances
Conditions
Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.
La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.