Machine Learning para Business intelligence

Curso

Machine Learning para Business intelligence

Facultad de Economía
Inicio / Programas / Machine Learning para Business intelligence

Machine Learning para Business intelligence

Este curso trata las metodologías más famosas de machine learning (aprendizaje de máquinas) y sus aplicaciones orientadas a business intelligence. Se va a cubrir la teoría y el código en Python de cada una de las técnicas estudiadas, entre las cuales se encuentran análisis supervisado, no supervisado, introducción a aprendizaje profundo y, finalmente, desarrollo de aplicaciones para el despliegue de resultados en Dash. Se enfatizará en el análisis de los resultados obtenidos en cada modelo, técnicas tradicionales para mejorar su desempeño y comprensión de supuestos para hacer conclusiones acertadas sobre el negocio en cuestión. Al final de este curso los estudiantes podrán desarrollar proyectos de principio a fin de ciencia de datos, desde la formulación de preguntas, limpieza de datos, modelación, extracción de patrones en los datos, y generación de reportes y creación de simples aplicaciones. 

Este curso hace parte del programa Proyectos de analítica en Python. Ver más aquí.

Dirigido a

El curso está dirigido a personas que deseen desarrollar y aprender habilidades analíticas a partir de modelos de aprendizaje estadístico, en particular los analistas que estén en contacto con los datos de sus organizaciones. Se espera que los estudiantes se familiaricen y mejoren sus habilidades en Python. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio de generación de valor agregado a partir de técnicas de Machine Learning. Por último, el curso les dará las herramientas necesarias para desarrollar proyectos de ciencia de datos dentro de sus respectivas organizaciones, llegando a crear y responder preguntas que le aporten al futuras acciones y decisiones de sus empresas. Los temas del curso cubren desde la realización de las preguntas interesantes de analítica, pasando por su desarrollo y finalmente el despliegue a través de creación de reportes y aplicaciones. 

Importante: Se espera que los estudiantes tengan conocimientos básicos de programación en Python, como manipular los objetos básicos (enteros, float, listas, diccionarios, strings, booleanos) y conocer las librerías NumPy y Pandas (ser capaz de cargar bases de datos, unirlas, indexarlas a través de valores booleanos, explorar sus atributos como columnas y tamaño). Adicionalmente se recomienda tener conocimientos de álgebra lineal como saber qué es una matriz y nociones básicas de estadística como conocer la media, varianza, mediana.

Objetivos

•    Enseñar a los conceptos básicos de Machine Learning.
•    Familiarizar a los estudiantes con Python y sus paquetes más famosos para la analítica.
•    Repasar los tipos de problemas y sus soluciones a partir de Machine Learning
•    Familiarizar a los estudiantes con la interpretación de resultados y los supuestos de cada modelo.
•    Enseñar la aplicación de los modelos más famosos de Machine Learning en Python.
•    Orientar los temas comprendidos en el curso a aplicaciones de BI
 

Metodología

El curso se realizará de manera virtual con sesiones sincrónicas. A su vez, en cada clase se realizarán ejercicios de código y se estudiará la intuición de lo realizado. Los ejercicios realizados estarán basados en experiencias reales de la industria.

Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 
El software que usará es Anaconda de Python 3. Las instrucciones de instalación serán remitidas al inicio del programa. 
 

Contenido

Sesión 1: Conceptos estadísticos introductorios a Machine Learning

•   Análisis multivariado.

•   Análisis descriptivo.

•   Álgebra Lineal.

•   Probabilidad y estadística.

Sesión 2: Visualización, estructuración y preprocesamiento de datos

•   Tipos de datos.

•   Tratamiento de datos estructurados y no estructurados.

•   Limpieza e imputación de datos.

•   Teoría de visualización.

•   Tipos de gráficos.

•   Matplotlib y Plotly.

Sesión 3: Modelos de regresión y clasificación

•   Mínimos cuadrados ordinarios.

•   Regresión polinomial.

•   Árboles de regresión.

•   Métricas de evaluación: R-cuadrado, MSE, MAPE.

•   Regresión Logística.

•   Linear Discriminant Analysis

•   Regularización L1 y L2

Sesión 4 y 5: Modelos de Clasificación

•   K-Vecinos más cercanos.

•   SVM.

•   Árboles de clasificación.

•   Random Forest.

•   Boosting de árboles.

•   Métricas de evaluación: curva ROC, exactitud, precisión, sensibilidad, puntaje F1.

Sesión 6: Análisis no supervisado

•   Técnicas de reducción de dimensionalidad (PCA, MCA, …).

•   Detección de anomalías (Mixturas Gaussianas, One-class SVM, Isolation trees).

•   Reglas de asociación.

•   Análisis de clústeres.

Sesión 7: Minería de texto

•   Procesamiento de textos.

•   Expresiones regulares (regex).

•   Análisis descriptivo de textos.

•   Matriz término-documentos.

•   Modelos de tópicos (Latent Dirichlet Allocation).

•   Análisis de sentimiento.

•   Modelos de clasificación a partir de textos.

Sesión 8: Introducción a Deep Learning

•   Introducción a Redes Neuronales.

•   Algoritmo de Backpropagation.

•   Optimizadores (Gradiente descendiente y estocástico, Adam, …).

•   Redes Convolucionales.

•   Redes Recurrentes.

Sesión 9: DASH

•   Creación de aplicaciones interactivas y despliegue de lo visto en el curso en Python.

Profesores

Juan Sebastián Moreno Pabón

Coordinador académico: Trabaja con los profesores en el diseño, construcción y mejoras de los contenidos, pero no es profesor del curso. Actualmente trabaja en Pinpoint Predictive, un start-up de psicometría de Silicon Valley apoyado por la incubadora de Stanford, StartX . En su rol como Investigador Senior desarrolla y despliega técnicas de inteligencia artificial para predecir comportamientos a partir de psicometría. Juan Moreno pasó cuatro años como investigador y luego como director asociado del departamento de minería de datos de Quantil, consultora en matemáticas aplicadas y machine learning. Lideró equipos de investigadores y desarrolló una amplia variedad de soluciones impulsadas por inteligencia artificial en diferentes sectores, que incluyen salud, seguridad pública, banca, transporte, educación, legal y manufactura, entre otros. Juan también ha trabajado como profesor de cátedra en el Departamento de Economía de su alma mater, la Universidad de los Andes, donde ha impartido cursos sobre matemáticas discretas, macroeconomía, aprendizaje automático, Python y R para análisis de datos. Como científico social computacional, Juan ha investigado temas relacionados a la predicción de delitos, la equidad en las aplicaciones de aprendizaje automático y la segregación en las redes sociales. También es miembro de la junta directiva del Centro de Analítica para Políticas Públicas (CAPP).

Condiciones

Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.

La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.