Probabilidad y estadística para la ciencia de datos

Microcredencial

Probabilidad y estadística para la ciencia de datos

Departamento de Física
Inicio / Programas / Probabilidad y estadística para la ciencia de datos

Probabilidad y estadística para la ciencia de datos

La utilización de herramientas de probabilidad, estadística y programación es fundamental para la toma de decisiones a partir de los datos. Actualmente, la demanda de personal calificado en estas áreas ha venido creciendo en las empresas y organizaciones.

El propósito general de esta Microcredencial es proporcionar a los estudiantes los fundamentos sólidos de probabilidad, estadística y programación requeridos para analizar datos y tomar las mejores decisiones informadas para sus empresas, universidades y organizaciones. Al completar este programa, los estudiantes estarán preparados con las habilidades y el conocimiento necesarios para analizar datos, descubrir patrones y tendencias, aplicar sus hallazgos para mejorar los procesos y apoyar la toma de decisiones.

La Microcredencial tiene una duración total de 48 horas distribuidas en 36 horas de trabajo sincrónico (24 horas magistrales y 12 horas complementarias) y 12 horas de trabajo autónomo del estudiante. El tiempo de trabajo autónomo está contemplado para el estudio de recursos educativos digitales y la realización de talleres y demás actividades relacionadas con la Microcredencial; estos tiempos serán gerenciados por los estudiantes y sus equipos de trabajo. Para mayor referencia, consulte Metodología.

Conoce más sobre las macrocredenciales y microcredenciales Uniandes aquí.

Competencia

Al finalizar esta Microcredencial, los estudiantes estarán en capacidad de aplicar las herramientas de probabilidad, estadística y programación en Python para extraer y analizar información relevante de bases de datos orientadas a las empresas y organizaciones.

El estudiante que apruebe esta Microcredencial podrá obtener una insignia digital que es una representación digital que se puede mostrar, acceder y verificar en línea. Incluye metadatos que brindan información detallada sobre la certificación que se otorga y que puede publicarse en redes sociales, plataformas profesionales de reclutamiento y empleos.

Esta Microcredencial no es homologable con ningún programa regular de la Universidad de los Andes.

Conoce la insignia digital que recibirás por aprobar esta microcredencial aquí.

Dirigido a

Esta Microcredencial está dirigida a profesionales que deseen iniciar una formación robusta en el análisis estadístico de datos y el manejo de grandes volúmenes de información. Estas habilidades son de vital importancia para aquellos que desean aplicar la analítica de datos en empresas y organizaciones. El entorno de aprendizaje se caracteriza por su enfoque interdisciplinario e incluye campos de aplicación en administración, ingeniería, finanzas y ciencias. La Microcredencial también está abierta a estudiantes de pregrado y posgrado de diversos campos que hayan completado el ciclo básico de matemáticas (cálculo diferencial e integral).

Requisitos: Se requieren conocimientos básicos de programación.

Esta Microcredencial no es homologable con ningún programa regular de la Universidad de los Andes.

Objetivos

1. Aplicar elementos fundamentales del lenguaje Python (bucles, funciones y arreglos) y librerías fundamentales de Matplolib y Numpy para el diseño y ejecución de programas básicos.

2. Realizar el cálculo de diferentes estimadores estadísticos usando distribuciones de probabilidad conjunta y hacer regresión lineal usando el método de mínimos cuadrados.

3. Realizar muestreo y estimación de parámetros usando la función de distribución posterior con el método de máxima verosimilitud y el método de Metrópolis-Hastings.

Metodología

Cada semana hay dos sesiones magistrales de dos horas y una sesión complementaria de 2 horas. La metodología de la Microcredencial se basa en aprendizaje por indagación y resolución de problemas. En cada sesión de la clase magistral se presenta la temática y se realizan ejemplos. Posteriormente, cada estudiante trabaja en uno o dos problemas individuales y se hace una discusión abierta alrededor de estos problemas. Al finalizar cada módulo, se asigna un taller en la clase magistral para desarrollo asincrónico. En la sesión complementaria se realizan 2 horas de trabajo individual guiado por el profesor, en donde se resuelven dudas sobre el taller asignado. La evaluación del curso se realiza promediando los 6 talleres semanales. Antes de cada sesión sincrónica, se invita a los estudiantes a explorar problemas o materiales que servirán de base para solucionar los problemas calificables.

La Microcredencial tiene una duración total de 48 horas distribuidas en 36 horas de trabajo sincrónico (24 horas magistrales y 12 horas complementarias) y 12 horas de trabajo autónomo del estudiante. El tiempo de trabajo autónomo está contemplado para el estudio de recursos educativos digitales y la realización de talleres y demás actividades relacionadas con la Microcredencial; estos tiempos serán gerenciados por los estudiantes y sus equipos de trabajo.

Sistema de evaluación

El estudiante desarrollará de forma individual un (1) taller en cada módulo, los cuales tendrán una participación cada uno del 16,66% (total 6 talleres).

Contenido

Módulo 1

  • Presentación del curso e instalación del software.
  • Introducción a la sintaxis básica de Python. - Tipado de variables, operadores, operadores de comparación.
  • Funciones y funciones anónimas.
  • Estructura de datos: listas, tuplas y diccionarios.
  • Condicionales y operadores de comparación.
  • Bucles: for y while.
  • Continue, pass, else, break.
  • Lectura y escritura de archivos de texto plano usando Numpy.

Módulo 2

  • Definición de probabilidad y su interpretación frecuentista.
  • Generación de números aleatorios discretos.
  • Distribuciones de probabilidad discreta: bernoulli, binomial, poisson.
  • Ejemplos aplicados: modelo de conteo de la radiación cósmica de fondo.
  • Definición de media y varianza.
  • Generación de números aleatorios continuas.
  • Distribución de probabilidad continua: exponencial, gaussiana, chi cuadrado.
  • Ideas del teorema de límite central.
  • Ejemplos aplicados.

Módulo 3

  • Teoría fundamental del muestreo.
  • Muestreo aleatorio simple, estratificado y sistemático de una población.
  • Series de tiempo, media móvil simple y pesada. Optimización usando Scipy.optimize.
  • Probabilidad condicional y total. Teorema de Bayes.
  • Ejemplo de aplicación.
  • Distribución de probabilidad en varias variables.
  • Marginalización.
  • Valores esperados.
  • Varianza y covarianza.

Módulo 4

  • Gaussianas multivariadas.
  • Valores esperados y covarianza.
  • Coeficiente de ρ de Pearson y ρ de Spearman.
  • Introducción a Principal Component Analysis (PCA).
  • Regresión Lineal.
  • Mínimos cuadrados matriciales.
  • Mínimos cuadrados usando χ2. Paquete Scipy.optimize.
  • Regresiones no lineales. Regresión logística.
  • Ejemplos de aplicación.

Módulo 5

  • Estimación de parámetros.
  • Visualización de la función de verosimilitud.
  • Método de máxima verosimilitud L(θ).
  • Cadenas de Markov.
  • Teorema de limite central.
  • Método de remuestreo (bootstrapping) aplicado a regresiones.
  • Algoritmo de Metropolis-Hastings para estimación de parámetros.
  • Metropolis-Hastings para muestreo.

Módulo 6

  • Definición de una hipótesis paramétricas y proceso de inferencia.
  • Errores de tipo-I y tipo-II.
  • Significancia estadística de una observación.
  • Definición del p-valor (p-value) y su correcta interpretación.
  • Cálculo de valores críticos para el caso normal y χ2.
  • Media y proporción.
  • Diferencia de medias y proporciones.
  • Estimación de la varianza poblacional.
  • Lema de Neyman-Pearson.
  • Comparación de modelos.
  • Pruebas de hipótesis no paramétricas.
  • Coeficiente de correlación para datos nominales 2 × 2, coeficiente φ.
  • T de Wilcoxon.
  • Prueba U de Mann Whitney.
  • Varianza en dos direcciones por rangos de Friedman.

Profesores

Manuel Alejandro Segura Delgado

Ms. Instituto Cinvestav de México y Ph.D en física de altas energías. Posee amplia experiencia en análisis de gran volumen de datos. Desarrolló su trabajo doctoral en el laboratorio CERN, en Ginebra, Suiza. Ha dictado el curso de métodos computacionales en la Universidad de Los Andes en múltiples ocasiones. Adicionalmente, el curso contará con la participación del profesor Andrés Flórez del departamento de física de la Universidad de los Andes, quien es experto en análisis de datos del experimento CMS y en el área de fenomenología de partículas. Finalmente, algunas clases serán dictadas por los fundadores de la empresa de análisis de datos Whale & Jaguar.

Diego Hernando Useche Reyes

Ms. en Física de la Universidad de los Andes e investigador del grupo MindLab de la Universidad Nacional. Ha sido investigador visitante en la Universidad de Purdue y en el laboratorio de Ames de Estados Unidos. Ha dictado varios cursos de métodos computacionales en ciencias en la Universidad de los Andes. Su área de investigación actual está enfocada en el desarrollo de modelos de machine learning en computadores cuánticos.

Condiciones

Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.

La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.

Relacionados