Introducción al análisis de datos en Python

Curso

Introducción al análisis de datos en Python

Facultad de Economía
Inicio / Programas / Introducción al análisis de datos en Python
En el mundo laboral debido al incremento en el volumen de datos y la necesidad de automatización de tareas se ha generado la necesidad de implementar nuevos softwares y lenguajes de programación a las tareas del día a día. Adicionalmente, al ser Python open source, muchos de los desarrollos de la frontera de conocimiento se han implementado en este lenguaje. Python es el lenguaje de programación que más nuevos programadores ha atraído en los últimos años, es el tercer lenguaje más popular del mundo y el primero en lo que relaciona a análisis de datos, machine learning y minería de datos. Además, es el lenguaje más solicitado por los empleadores en busca de analistas de datos. En respuesta a esta necesidad, el curso de Introducción al análisis de datos en Python busca que los estudiantes adquieran una comprensión general del lenguaje de programación, su utilidad para el análisis de datos y automatización de tareas. En el curso se tratará la sintaxis básica de programación, el manejo de datos y su visualización. Así, el énfasis será sobre la importación, organización y manejo de datos y la presentación de resultados. 

Este curso hace parte del programa Proyectos de analítica en Python. Ver más aquí.

Dirigido a

El curso está dirigido a personas que deseen desarrollar habilidades de programación en Python. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio de la automatización de procesos y análisis estadístico de volúmenes considerables de datos. De igual forma, se espera ofrecerles a los investigadores que no han tenido la oportunidad de tener un acercamiento a la programación, una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación. Por último, el curso les dará las herramientas necesarias para tomar cursos aplicados de educación continua en los cuales se mostrará el uso de Python en problemas de diferentes industrias. El curso no tiene prerrequisitos.

Objetivos

Enseñar a los estudiantes los conceptos básicos de programación.
Familiarizar a los estudiantes en la sintaxis básica de Python.
Se enseñarán las siguientes habilidades:
-    Operaciones matemáticas vectoriales y matriciales con numpy.
-    Limpieza y Manipulación de bases de datos.
-    Visualización de datos con las librerías más famosas.
-    Automatización de tareas en Python. 
-    Generar valor agregado a partir de análisis estadísticos descriptivos.

Metodología

El curso se realizará de manera virtual con sesiones sincrónicas. A su vez, en cada clase se realizarán ejercicios de código y se estudiará la intuición de lo realizado. Los ejercicios realizados estarán basados en experiencias reales de la industria. 

Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 
El software que usará es Anaconda de Python 3. Las instrucciones de instalación serán remitidas al inicio del curso.
 

Contenido

Sesión 1:
¿Qué es Python? ¿Qué es Anaconda? 
¿Qué es un lenguaje multipropósito?  
Instalación de Python, Anaconda y Jupyter LAB. 
Instalación y carga de librerías. 
Jupyter Lab, páneles y comandos rápidos. 
Sintaxis en Python: Identación y estructura básica. 
Tipos de datos: entero, float, lógico, character. Missings: NaN, NA. 
Estructuras de datos: Listas, cadenas, tuplas y diccionarios. 
Numpy y Pandas.
Operaciones básicas e indexación. 
¿Dónde buscar ayuda?
Sesión 2:
Importar información 
Manejo de listas y diccionarios
Extraer información de objetos y rebanados. 
Uso de vectores lógicos para extraer información de objetos. 
Definir funciones. 
Estructuras de control.
Sesión 3:
Programación orientada a objetos
Clases y métodos.
Loops: while y for.
Controles de flujo: continue, break.
Sesión 4:
Instalar y cargar paquetes. 
Funciones apply, mapping and merge.
Funciones de manejo de texto.
Manejo básico pandas, numpy.arrays y spicy: selección de filas y/o columnas, selección condicionada.
Creación de muestras y subconjuntos de data frames: subsets and samples.
Importación de datos: txt, csv, xlsx, .pkl y gzip.
Inspección inicial de la información.
Sesión 5 y 6: 
Introducción a plotly y matplot.
Gráficos base: histogramas, scatter plot, bar plot, box plot. 
Otras herramientas para visualización de datos: manejo de mapas. 
Personalización de gráficos: ejes, colores, títulos. 
Exportación de gráficos.
Sesión 7:
Construcción de análisis estadísticos descriptivos.
Pruebas estadísticas.
Modelos estadísticos. (Regresiones y modelos de clústering)
 

Profesores

Juan Sebastián Moreno Pabón

Coordinador Académico. Economista y Magíster en Economía de la Universidad de los Andes. Ha trabajado como profesor magistral del Taller de R: Estadística y Programación en la misma universidad y profesor de Economía Matemática en la Universidad del Rosario. Actualmente dicta como magistral en la Universidad de los Andes las clases de Pensando Problemas (matemáticas discretas para economistas) y el Taller de Python, y es coordinador de los programas de Educación Continua de Proyectos de Analítica en Python e Introducción a Finanzas Cuantitativas en R. Trabajó en el Ministerio de Hacienda y Crédito Público en temas de riesgo sobre los pasivos de la nación. Se desempeñó como investigador en el CESED (Centro de Estudios sobre Seguridad y Drogas) de la Universidad de los Andes donde se especializó en temas de cultivos de coca y sus determinantes. Actualmente se desempeña como Director Asociado del área de Minería de Datos en Quantil, donde ha trabajado en temas de minería de datos, aprendizaje de máquinas, procesamiento del lenguaje natural y aprendizaje profundo. Ha trabajado en proyectos relacionados con modelos de scoring crediticio, pronóstico de demanda de urgencias hospitalarias, procesamiento de lenguaje de textos jurídicos, de redes sociales, descripciones laborales y diagnósticos de cáncer, evaluaciones de equidad (fairness) en algoritmos de predicción, modelos de retención de clientes, predicción de polución, entre otros. Actualmente investiga sobre modelos predicción de crimen y equidad en los mismos. Entre sus intereses se encuentran las matemáticas aplicadas y minería de datos aplicada a políticas públicas.