Introducción al análisis de datos en Python
En el mundo laboral, debido al incremento en el volumen de datos y con el fin de optimizar los procesos de análisis de los mismos y, con ello, facilitar la toma de decisiones en diferentes contextos se ha generado la necesidad de diseñar herramientas, creadas en distintos lenguajes de programación, que apoyen o complementen las tareas del día a día. Adicionalmente, los lenguajes open source, como Python, han permitido ampliar, de manera exponencial, la frontera del conocimiento en la construcción de estas herramientas lo que también ha permitido generar un espacio ampliamente colaborativo entre desarrolladores de todo el mundo. Python es el lenguaje de programación que más nuevos programadores ha atraído en los últimos años, es el tercer lenguaje más popular del mundo y el primero en lo que relaciona a análisis de datos, machine learning y minería de datos. Además, es el lenguaje más solicitado por los empleadores en busca de analistas de datos. En respuesta a esta necesidad, el curso de Introducción al análisis de datos en Python busca que los estudiantes adquieran una comprensión general del lenguaje de programación, su utilidad para el análisis de datos y automatización de tareas. En el curso se tratará la sintaxis básica de programación, el manejo de datos y su visualización. Así, el énfasis será sobre la importación, organización y manejo de datos y la presentación de resultados.
Este curso hace parte del programa Proyectos de analítica en Python. Ver más aquí.
Dirigido a
Este curso va dirigido a todos aquellos que quieren hacer una introducción práctica a la programación con Python. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio de la automatización de procesos y análisis estadístico de volúmenes considerables de datos. De igual forma, se espera ofrecerles a los investigadores que no han tenido la oportunidad de tener un acercamiento a la programación, una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación. Por último, el curso les dará las herramientas necesarias para tomar cursos aplicados de educación continua en los cuales se mostrará el uso de Python en problemas de diferentes industrias. El curso no tiene prerrequisitos.
Objetivos
Enseñar a los estudiantes los conceptos básicos de programación.
Familiarizar a los estudiantes en la sintaxis básica de Python.
Se enseñarán las siguientes habilidades:
- Identificación y caracterización de objetos en Python
- Construcción de funciones para automatizar procesos.
- Carga, limpieza y manipulación de bases de datos.
- Análisis exploratorio de los datos.
- Visualización de datos con las librerías más famosas.
- Organización básica y manejo de proyectos en Git
Metodología
El curso se realizará de manera virtual con sesiones sincrónicas. A su vez, en cada clase se realizarán ejercicios de código y se estudiará la intuición de lo realizado. Los ejercicios realizados estarán basados en experiencias reales de la industria.Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante.
El software que usará es Anaconda de Python 3. Las instrucciones de instalación serán remitidas al inicio del curso.
Contenido
Sesión 1:
- ¿Qué es Python? Intro al uso de VS Code
- ¿Qué es un lenguaje multipropósito?
- ¿Qué es Git?
- Instalación de Python, Anaconda y Jupyter LAB.
- Uso de Git desde VSCode
- Jupyter Lab, páneles y comandos rápidos.
- Funciones internas de python
- Operaciones básicas e indexación.
- Sintaxis en Python: Identación y estructura básica.
- Tipos de datos: entero, float, lógico, character. Missings: NaN, NA.
- Métodos asociados a cada tipo de dato
- ¿Dónde buscar ayuda?
Sesión 2:
- Estructuras de objetos iterables: Listas, cadenas, tuplas y diccionarios.
- Manejo de listas y diccionarios y sus métodos
- Extraer información de objetos y rebanados, indexación
- Uso de vectores lógicos para extraer información de objetos.
Sesión 3:
- Condicionales
- Loops: while y for.
- Controles de flujo: continue, break.
- Listas comprensivas
- Definir funciones.
- Estructuras de control.
- Parámetros de funciones
- Documentación
- Instalación y carga de librerías.
Sesión 4:
- Introducción a Numpy,
- Introducción a pandas
- Importación y exportación de datos
- Métodos de los tipos de objetos en pandas
- Manipulación de bases de datos: indexación, operaciones, agrupación, muestreos
- Unión de bases de datos: merge, join, concat
- Estadísticas descriptivas
Sesión 5 y 6:
- Introducción a matplotlib, seaborn, plotly
- Gráficos base: histogramas, scatter plot, bar plot, box plot.
- Personalización de gráficos: ejes, colores, títulos.
- Otras herramientas para visualización de datos: manejo de mapas.
- Exportación de gráficos.
Sesión 7:
- Construcción de análisis estadísticos descriptivos.
- Pruebas estadísticas.
- Modelos estadísticos. (Regresiones y modelos de clústering)
- Dilemas éticos en el uso y procesamiento de datos
- Herramientas de auditoría algorítmica, ¿por qué es importante?
Condiciones
Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.
La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.