Big Data

Curso

Big Data

Facultad de Economía
Inicio / Programas / Big Data

Big Data

Este es un curso de posgrado en machine learning, con un enfoque especial en herramientas relevantes para economistas. Está destinado a estudiantes interesados en investigación aplicada y/o análisis de datos grandes y no estructurados. Problemas de predicción e inferencia, con especial énfasis en inferencia causal, atraviesan transversalmente al curso. Mediante una combinación de talleres, presentaciones, y un trabajo final grupal, los estudiantes adquirirán las herramientas estadísticas y computacionales necesarias para responder varias preguntas en economía y en una gran cantidad de subcampos en investigación aplicada. Se hará énfasis especial en el análisis de datos reales, y la aplicación de metodologías específicas; ejemplos incluyen encuestas de hogares, precios de propiedades, datos de internet y redes sociales. 

Dirigido a

El curso está dirigido a estudiantes avanzados de grado y posgrado en economía, en ciencias políticas, y disciplinas afines.  

Requisito: Es pre-requisito haber cursado Microeconomía 3, Econometría 1 y 2, o equivalentes. Se recomienda haber cursado Econometría Avanzada o similar. Se necesita experiencia básica en manejo de datos (por ejemplo, en Excel o Stata) y deseable en software “R” o “Python”. 

El curso se basará principalmente en “R”. Aquellos estudiantes sin experiencia y con ganas y voluntad de aprender son bienvenidos al curso previa consulta con el docente. ¡Estos programas (y todos) se aprenden utilizándolos! 

Objetivos

El curso busca que los estudiantes sean capaces de organizar, relacionar, y analizar datos anárquicos y espontáneos de gran escala, tipo, y calidad para responder preguntas económicas y sociales, con especial énfasis en tareas predictivas. 

Competencias: 

1. Comprender las técnicas provenientes de la ciencia de datos, la ciencia computacional, y la estadística desde una visión de economistas.  

2. Ser capaz de contrastar distintas técnicas econométricas y su conveniencia para contestar preguntas económicas y sociales. 

3. Desarrollar habilidades técnicas para el manejo cuantitativo de datos que surgen de distintas fuentes: páginas web, encuestas, geoespaciales, texto, etc.  

4. Desarrollar la capacidad manejar, analizar y sintetizar bases de datos con gran número de observaciones y variables para generar conclusiones y recomendaciones sobre preguntas relevantes a las ciencias sociales.  

5. Aprender a manejar con fluidez distintas herramientas computacionales.  

6. Capacidad de analizar críticamente los datos presentados, ya sean provenientes de textos académicos o de los ejercicios presentados en el cursado. 

7. Trabajar y resolver situaciones en grupo.  

8. Habilidad de exponer y defender (en forma escrita y oral) el trabajo realizado. 

Metodología

La metodología del curso combina clases virtuales, talleres, presentaciones, y un proyecto final. La participación de los estudiantes es fundamental para sacar el mayor provecho del curso. La virtualidad impone nuevos desafíos y es importante mantenerse conectados para crear las sinergias que surgen de las interacciones humanas.  

Los talleres serán grupales y se hará énfasis especial en el análisis de datos reales, y la aplicación de metodologías específicas; ejemplos incluyen encuestas de hogares, precios de propiedades, datos de internet y redes sociales.  

El producto final de este curso es proyecto implementando los conceptos y herramientas aprendidas a un problema concreto. El proyecto puede estar orientado a la investigación o a la industria dependiendo los intereses del alumno. 

Contenido

1. Introducción al aprendizaje estadístico: Predecir, explicar. Causalidad y predicción. Aprendizaje supervisado y no supervisado.  

2. Regresión lineal. MCO. Propiedades numéricas. Teorema FWL. Sobreajuste. Métodos de resampleo y validación cruzada. Optimización. Máxima verosimilitud. Modelos lineales, linealizables, y no lineales. Vecinos cercanos. Obtención de datos de la web: scraping y APIs.  

3. Selección de modelos y regularización. Lasso y Ridge. Aplicaciones en inferencia causal. 

4. Clasificación. Análisis discriminante. Clasificador de Bayes. Regresión logística. Aprendizaje no Balanceado. 

5. Árboles de decisión (CARTs). Bosques, Bagging, y Boosting. XGBoost, LightGBM, y Super Learners. Aplicaciones en inferencia causal. 

6. Datos espaciales. Modelado de dependencia espacial, métodos no paramétricos y econometría espacial. 

7. Texto como datos y aprendizaje no supervisado. Clústering, Modelos de categorización de tópicos. Word Embeddings. 

8. Introducción a aprendizaje profundo. Redes neuronales. Imágenes como datos. 

Profesores

Ignacio Sarmiento-Barbieri

PhD en Economía de la Universidad de Illinois con especialización en Economía Urbana y Econometría. Realizó su postdoctorado en ciencia de datos en microeconomía aplicada en el Centro Nacional de Aplicaciones de Supercomputadoras (NCSA) de Estados Unidos. Actualmente es Profesor Asistente de la Facultad de Economía, miembro del programa de Catalistas del Berkeley Initiative for Transparency in the Social Sciences (BITSS) y profesor asociado del Centro de Investigación y Formación en Inteligencia Artificial. Su investigación combina herramientas econométricas tradicionales con avances en informática, big data, y aprendizaje automático para estudiar la economía pública y urbana. En particular, su interés está en la provisión de bienes públicos en ciudades de todo el mundo.

Condiciones

Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.

La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.

Relacionados