Probabilidad y estadística para la ciencia de datos
La utilización de herramientas de probabilidad, estadística y programación es fundamental para la toma de decisiones a partir de los datos. Actualmente, la demanda de personal calificado en estas áreas ha venido creciendo en las empresas y organizaciones.
El propósito general de esta Microcredencial es proporcionar a los estudiantes los fundamentos sólidos de probabilidad, estadística y programación requeridos para analizar datos y tomar las mejores decisiones informadas para sus empresas, universidades y organizaciones. Al completar este programa, los estudiantes estarán preparados con las habilidades y el conocimiento necesarios para analizar datos, descubrir patrones y tendencias, aplicar sus hallazgos para mejorar los procesos y apoyar la toma de decisiones.
La Microcredencial tiene una duración total de 48 horas distribuidas en 36 horas de trabajo sincrónico (24 horas magistrales y 12 horas complementarias) y 12 horas de trabajo autónomo del estudiante. El tiempo de trabajo autónomo está contemplado para el estudio de recursos educativos digitales y la realización de talleres y demás actividades relacionadas con la Microcredencial; estos tiempos serán gerenciados por los estudiantes y sus equipos de trabajo. Para mayor referencia, consulte Metodología.
Conoce más sobre las macrocredenciales y microcredenciales Uniandes aquí.
Competencia
Al finalizar esta Microcredencial, los estudiantes estarán en capacidad de aplicar las herramientas de probabilidad, estadística y programación en Python para extraer y analizar información relevante de bases de datos orientadas a las empresas y organizaciones.
El estudiante que apruebe esta Microcredencial podrá obtener una insignia digital que es una representación digital que se puede mostrar, acceder y verificar en línea. Incluye metadatos que brindan información detallada sobre la certificación que se otorga y que puede publicarse en redes sociales, plataformas profesionales de reclutamiento y empleos.
Esta Microcredencial no es homologable con ningún programa regular de la Universidad de los Andes.
Conoce la insignia digital que recibirás por aprobar esta microcredencial aquí.
Addressed to
Esta Microcredencial está dirigida a profesionales que deseen iniciar una formación robusta en el análisis estadístico de datos y el manejo de grandes volúmenes de información. Estas habilidades son de vital importancia para aquellos que desean aplicar la analítica de datos en empresas y organizaciones. El entorno de aprendizaje se caracteriza por su enfoque interdisciplinario e incluye campos de aplicación en administración, ingeniería, finanzas y ciencias. La Microcredencial también está abierta a estudiantes de pregrado y posgrado de diversos campos que hayan completado el ciclo básico de matemáticas (cálculo diferencial e integral).
Requisitos:
Haber cursado la “Microcredencial Introducción a la ciencia de datos ofrecida en febrero de 2024”, o realizar examen de diagnóstico el cual tendrá las siguientes características:
Fecha de realización y horarios opción 1: 12 de junio de 12:00 m a 1:00 p.m. o 6:00 p.m. a 7:00 p.m. Los resultados serán informados el 13 de junio.
Fecha de realización y horarios opción 2: 17 de junio de 12:00 m a 1:00 p.m. o 6:00 p.m. a 7:00 p.m. Los resultados serán informados el 18 de junio.
El examen no tiene costo.
Duración: Una hora.
Modalidad: Virtual y será obligatorio tener la cámara encendida. Para realizar la inscripción el estudiante debe tener aprobado el examen de diagnóstico.
También aplica para los estudiantes de la Universidad de los Andes que hayan aprobado exámenes de cursos o programas relacionados. Solo deberán presentar la certificación de su aprobación.
Goals
1. Aplicar elementos fundamentales del lenguaje Python (bucles, funciones y arreglos) y librerías fundamentales de Matplolib y Numpy para el diseño y ejecución de programas básicos.
2. Realizar el cálculo de diferentes estimadores estadísticos usando distribuciones de probabilidad conjunta y hacer regresión lineal usando el método de mínimos cuadrados.
3. Realizar muestreo y estimación de parámetros usando la función de distribución posterior con el método de máxima verosimilitud y el método de Metrópolis-Hastings.
Methodology
Cada semana hay dos sesiones magistrales de dos horas y una sesión complementaria de 2 horas. La metodología de la Microcredencial se basa en aprendizaje por indagación y resolución de problemas. En cada sesión de la clase magistral se presenta la temática y se realizan ejemplos. Posteriormente, cada estudiante trabaja en uno o dos problemas individuales y se hace una discusión abierta alrededor de estos problemas. Al finalizar cada módulo, se asigna un taller en la clase magistral para desarrollo asincrónico. En la sesión complementaria se realizan 2 horas de trabajo individual guiado por el profesor, en donde se resuelven dudas sobre el taller asignado. La evaluación del curso se realiza promediando los 6 talleres semanales. Antes de cada sesión sincrónica, se invita a los estudiantes a explorar problemas o materiales que servirán de base para solucionar los problemas calificables.
La Microcredencial tiene una duración total de 48 horas distribuidas en 36 horas de trabajo sincrónico (24 horas magistrales y 12 horas complementarias) y 12 horas de trabajo autónomo del estudiante. El tiempo de trabajo autónomo está contemplado para el estudio de recursos educativos digitales y la realización de talleres y demás actividades relacionadas con la Microcredencial; estos tiempos serán gerenciados por los estudiantes y sus equipos de trabajo.
Sistema de evaluación
El estudiante desarrollará de forma individual un (1) taller en cada módulo, los cuales tendrán una participación cada uno del 16,66% (total 6 talleres).
Content
Módulo 1
- Presentación del curso e instalación del software.
- Introducción a la sintaxis básica de Python. - Tipado de variables, operadores, operadores de comparación.
- Funciones y funciones anónimas.
- Estructura de datos: listas, tuplas y diccionarios.
- Condicionales y operadores de comparación.
- Bucles: for y while.
- Continue, pass, else, break.
- Lectura y escritura de archivos de texto plano usando Numpy.
Módulo 2
- Definición de probabilidad y su interpretación frecuentista.
- Generación de números aleatorios discretos.
- Distribuciones de probabilidad discreta: bernoulli, binomial, poisson.
- Ejemplos aplicados: modelo de conteo de la radiación cósmica de fondo.
- Definición de media y varianza.
- Generación de números aleatorios continuas.
- Distribución de probabilidad continua: exponencial, gaussiana, chi cuadrado.
- Ideas del teorema de límite central.
- Ejemplos aplicados.
Módulo 3
- Teoría fundamental del muestreo.
- Muestreo aleatorio simple, estratificado y sistemático de una población.
- Series de tiempo, media móvil simple y pesada. Optimización usando Scipy.optimize.
- Probabilidad condicional y total. Teorema de Bayes.
- Ejemplo de aplicación.
- Distribución de probabilidad en varias variables.
- Marginalización.
- Valores esperados.
- Varianza y covarianza.
Módulo 4
- Gaussianas multivariadas.
- Valores esperados y covarianza.
- Coeficiente de ρ de Pearson y ρ de Spearman.
- Introducción a Principal Component Analysis (PCA).
- Regresión Lineal.
- Mínimos cuadrados matriciales.
- Mínimos cuadrados usando χ2. Paquete Scipy.optimize.
- Regresiones no lineales. Regresión logística.
- Ejemplos de aplicación.
Módulo 5
- Estimación de parámetros.
- Visualización de la función de verosimilitud.
- Método de máxima verosimilitud L(θ).
- Cadenas de Markov.
- Teorema de limite central.
- Método de remuestreo (bootstrapping) aplicado a regresiones.
- Algoritmo de Metropolis-Hastings para estimación de parámetros.
- Metropolis-Hastings para muestreo.
Módulo 6
- Definición de una hipótesis paramétricas y proceso de inferencia.
- Errores de tipo-I y tipo-II.
- Significancia estadística de una observación.
- Definición del p-valor (p-value) y su correcta interpretación.
- Cálculo de valores críticos para el caso normal y χ2.
- Media y proporción.
- Diferencia de medias y proporciones.
- Estimación de la varianza poblacional.
- Lema de Neyman-Pearson.
- Comparación de modelos.
- Pruebas de hipótesis no paramétricas.
- Coeficiente de correlación para datos nominales 2 × 2, coeficiente φ.
- T de Wilcoxon.
- Prueba U de Mann Whitney.
- Varianza en dos direcciones por rangos de Friedman.
Conditions
Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.
La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.