Big Data
Este es un curso de posgrado en machine learning, con un enfoque especial en herramientas relevantes para economistas. Está destinado a estudiantes interesados en investigación aplicada y/o análisis de datos grandes y no estructurados. Problemas de predicción e inferencia, con especial énfasis en inferencia causal, atraviesan transversalmente al curso. Mediante una combinación de talleres, presentaciones, y un trabajo final grupal, los estudiantes adquirirán las herramientas estadísticas y computacionales necesarias para responder varias preguntas en economía y en una gran cantidad de subcampos en investigación aplicada. Se hará énfasis especial en el análisis de datos reales, y la aplicación de metodologías específicas; ejemplos incluyen encuestas de hogares, precios de propiedades, datos de internet y redes sociales.
Nota: El curso bajo modalidad de extensión otorga créditos y notas, por tanto, pueden ser homologable una vez el estudiante sea admitido a la Universidad, de acuerdo al reglamento de estudiantes y de homologaciones.
La aprobación del curso, modalidad extensión, no garantiza el ingreso a ningún programa regular de la Universidad.
La Dirección de Educación Continua otorgará un certificado de aprobación con el número de créditos a solicitud de los estudiantes.
Dirigido a
El curso está dirigido a estudiantes avanzados de grado y posgrado en economía, en ciencias políticas, y disciplinas afines.
Requisito: Es pre-requisito haber cursado Microeconomía 3, Econometría 1 y 2, o equivalentes. Se recomienda haber cursado Econometría Avanzada o similar. Se necesita experiencia básica en manejo de datos (por ejemplo, en Excel o Stata) y deseable en software “R” o “Python”.
El curso se basará principalmente en “R”. Aquellos estudiantes sin experiencia y con ganas y voluntad de aprender son bienvenidos al curso previa consulta con el docente. ¡Estos programas (y todos) se aprenden utilizándolos!
Objetivos
El curso busca que los estudiantes sean capaces de organizar, relacionar, y analizar datos anárquicos y espontáneos de gran escala, tipo, y calidad para responder preguntas económicas y sociales, con especial énfasis en tareas predictivas.
Competencias:
1. Comprender las técnicas provenientes de la ciencia de datos, la ciencia computacional, y la estadística desde una visión de economistas.
2. Ser capaz de contrastar distintas técnicas econométricas y su conveniencia para contestar preguntas económicas y sociales.
3. Desarrollar habilidades técnicas para el manejo cuantitativo de datos que surgen de distintas fuentes: páginas web, encuestas, geoespaciales, texto, etc.
4. Desarrollar la capacidad manejar, analizar y sintetizar bases de datos con gran número de observaciones y variables para generar conclusiones y recomendaciones sobre preguntas relevantes a las ciencias sociales.
5. Aprender a manejar con fluidez distintas herramientas computacionales.
6. Capacidad de analizar críticamente los datos presentados, ya sean provenientes de textos académicos o de los ejercicios presentados en el cursado.
7. Trabajar y resolver situaciones en grupo.
8. Habilidad de exponer y defender (en forma escrita y oral) el trabajo realizado.
Metodología
La metodología del curso combina clases virtuales, talleres, presentaciones, y un proyecto final. La participación de los estudiantes es fundamental para sacar el mayor provecho del curso. La virtualidad impone nuevos desafíos y es importante mantenerse conectados para crear las sinergias que surgen de las interacciones humanas.
Los talleres serán grupales y se hará énfasis especial en el análisis de datos reales, y la aplicación de metodologías específicas; ejemplos incluyen encuestas de hogares, precios de propiedades, datos de internet y redes sociales.
El producto final de este curso es proyecto implementando los conceptos y herramientas aprendidas a un problema concreto. El proyecto puede estar orientado a la investigación o a la industria dependiendo los intereses del alumno.
Contenido
1. Introducción al aprendizaje estadístico: Predecir, explicar. Causalidad y predicción. Aprendizaje supervisado y no supervisado.
2. Regresión lineal. MCO. Propiedades numéricas. Teorema FWL. Sobreajuste. Métodos de resampleo y validación cruzada. Optimización. Máxima verosimilitud. Modelos lineales, linealizables, y no lineales. Vecinos cercanos. Obtención de datos de la web: scraping y APIs.
3. Selección de modelos y regularización. Lasso y Ridge. Aplicaciones en inferencia causal.
4. Clasificación. Análisis discriminante. Clasificador de Bayes. Regresión logística. Aprendizaje no Balanceado.
5. Árboles de decisión (CARTs). Bosques, Bagging, y Boosting. XGBoost, LightGBM, y Super Learners. Aplicaciones en inferencia causal.
6. Datos espaciales. Modelado de dependencia espacial, métodos no paramétricos y econometría espacial.
7. Texto como datos y aprendizaje no supervisado. Clústering, Modelos de categorización de tópicos. Word Embeddings.
8. Introducción a aprendizaje profundo. Redes neuronales. Imágenes como datos.
Condiciones
Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.
La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.