Machine Learning para Business intelligence (Grupo 2)

Curso

Machine Learning para Business intelligence (Grupo 2)

Facultad de Economía
Inicio / Programas / Machine Learning para Business intelligence (Grupo 2)

Machine Learning para Business intelligence

En este curso se estudiarán las metodologías más famosas de machine learning (aprendizaje de máquinas) y sus aplicaciones orientadas a business intelligence. Se cubrirá la teoría y el código en Python de cada una de las técnicas estudiadas, entre las cuales se encuentran análisis supervisado, no supervisado, introducción a aprendizaje profundo y, finalmente, desarrollo de aplicaciones para el despliegue de resultados en Dash. Se enfatizará en el análisis de los resultados obtenidos en cada modelo, técnicas tradicionales para mejorar su desempeño y comprensión de supuestos para hacer conclusiones acertadas sobre el negocio en cuestión. Al final de este curso los estudiantes podrán desarrollar proyectos de principio a fin de ciencia de datos, desde la formulación de preguntas, limpieza de datos, modelación, extracción de patrones en los datos, y generación de reportes y creación de simples aplicaciones. 

​​​​​​​Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 
El software que usará es Anaconda de Python 3. Las instrucciones de instalación serán remitidas al inicio del programa.

Este curso hace parte del programa Proyectos de analítica en Python (Grupo 2). Ver más aquí.

Dirigido a

El curso está dirigido a personas que deseen desarrollar y aprender habilidades analíticas a partir de modelos de aprendizaje estadístico, en particular los analistas que estén en contacto con los datos de sus organizaciones. Se espera que los estudiantes se familiaricen y mejoren sus habilidades en Python. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio de generación de valor agregado a partir de técnicas de Machine Learning. Por último, el curso les dará las herramientas necesarias para desarrollar proyectos de ciencia de datos dentro de sus respectivas organizaciones, llegando a crear y responder preguntas que le aporten al futuras acciones y decisiones de sus empresas. Los temas del curso cubren desde la realización de las preguntas interesantes de analítica, pasando por su desarrollo y finalmente el despliegue a través de creación de reportes y aplicaciones.  
Importante: Se espera que los estudiantes tengan conocimientos básicos de programación en Python.

Objetivos

•    Enseñar a los conceptos básicos de Machine Learning.
•    Familiarizar a los estudiantes con Python y sus paquetes más famosos para la analítica.
•    Repasar los tipos de problemas y sus soluciones a partir de Machine Learning
•    Familiarizar a los estudiantes con la interpretación de resultados y los supuestos de cada modelo.
•    Enseñar la aplicación de los modelos más famosos de Machine Learning en Python.
•    Orientar los temas comprendidos en el curso a aplicaciones de BI.
 

Metodología

El curso se realizará de manera virtual con sesiones sincrónicas y cada sesión estará dividida en dos módulos, los cuales a su vez estarán divididos en dos partes. Durante la primera parte de cada módulo el profesor introducirá la teoría e interpretabilidad de cada modelo. Posteriormente, en la segunda parte, los estudiantes trabajarán en Python para desarrollar los temas aprendidos aplicándolos a un tema relacionado con business intelligence (segmentación de clientes, retención de afiliados, procesos operativos, entre otros).

​​​​​​​Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 
El software que usará es Anaconda de Python 3. Las instrucciones de instalación serán remitidas al inicio del programa.

Contenido

Sesión 1: Conceptos estadísticos introductorios a Machine Learning
•    Análisis multivariado.
•    Análisis descriptivo.
•    Álgebra Lineal.
•    Probabilidad y estadística.
Sesión 2: Visualización, estructuración y preprocesamiento de datos
•    Tipos de datos.
•    Tratamiento de datos estructurados y no estructurados.
•    Limpieza e imputación de datos.
•    Teoría de visualización.
•    Tipos de gráficos.
•    Matplotlib y Plotly.
Sesión 3: Modelos de regresión y clasificación
•    Mínimos cuadrados ordinarios.
•    Regresión polinomial.
•    Árboles de regresión.
•    Métricas de evaluación: R-cuadrado, MSE, MAPE.
•    Regresión Logística.
•    Linear Discriminant Analysis
•    Regularización L1 y L2
Sesión 4 y 5: Modelos de Clasificación
•    K-Vecinos más cercanos.
•    SVM.
•    Árboles de clasificación.
•    Random Forest.
•    Boosting de árboles.
•    Métricas de evaluación: curva ROC, exactitud, precisión, sensibilidad, puntaje F1.
Sesión 6: Análisis no supervisado
•    Técnicas de reducción de dimensionalidad (PCA, MCA, …).
•    Detección de anomalías (Mixturas Gaussianas, One-class SVM, Isolation trees).
•    Reglas de asociación.
•    Análisis de clústeres.
Sesión 7: Minería de texto
•    Procesamiento de textos.
•    Expresiones regulares (regex).
•    Análisis descriptivo de textos.
•    Matriz término-documentos
•    Modelos de tópicos (Latent Dirichlet Allocation).
•    Análisis de sentimiento.
•    Modelos de clasificación a partir de textos.
Sesión 8: Introducción a Deep Learning
•    Introducción a Redes Neuronales.
•    Algoritmo de Backpropagation.
•    Optimizadores (Gradiente descendiente y estocástico, Adam, …).
•    Redes Convolucionales.
•    Redes Recurrentes.
Sesión 9: DASH
•    Creación de aplicaciones interactivas y despliegue de lo visto en el curso en Python.
 

Profesores

Diego Gutiérrez

Físico con Opción en Matemáticas Aplicadas del Instituto Tecnológico de Illinois. Magíster en Física de la Universidad de Waterloo en Canadá, completando el diplomado Perimeter Scholars International en Física Teórica en el Instituto Perimeter de Física Teórica, donde hizo investigación en implementaciones de Modelos Generativos de Aprendizaje de Máquinas a mediciones simuladas de sistemas cuánticos, bajo la supervisión de profesorado del Instituto Perimeter y el Instituto Vector para Inteligencia Artificial en Canadá. Durante su pregrado trabajo en el Laboratorio Nacional de Argonne, EEUU, investigando en áreas como física de aceleradores, óptica no-lineal y física de láseres, también trabajo con el grupo de investigación en física de aceleradores de partículas de su universidad. A lo largo de su trayectoria en investigación ha implementado modelos de análisis de datos, ciencia y física computacional y aprendizaje de máquinas, en lenguajes de programación como Python, Julia, C++, R, y Wolfram Language/Mathematica. En Quantil, ha trabajado en análisis estadístico de bases de datos, ha implementado modelos de aprendizaje de máquinas a proyectos de análisis de riesgo crediticio y operativo en el sector financiero. También ha asistido con el desarrollo de modelos de predicción de crimen usando modelos de aprendizaje supervisado y estadístico, así como librerías de código para análisis geoespacial. Asimismo, ha trabajado en el análisis de sesgos y fairness/justicia a modelos de aprendizaje de máquinas para predicción de crímenes. De igual manera ha investigado sobre modelos gráficos probabilísticos para su aplicación en procesos industriales.

Sebastian Quintero

Físico de la Universidad Nacional de Colombia y se encuentra terminando su maestría allí mismo. También posee una MicroMaestria en Estadística y Ciencia de Datos de MIT. Fue ganador de las pruebas Efi-Ciencias 2016. En su trayecto como físico, ha trabajado principalmente sobre fenomenología en Cromodinámica cuántica y el estudio de Event Shapes. También se ha desempeñado como auxiliar docente en la misma universidad, dictando diferentes cursos tales como mecánica cuántica, oscilaciones y ondas, y fundamentos de electricidad y magnetismo. Recientemente se ha reenfocado a la ciencia de datos, tomando particular interés en el área de Deep Learning. Actualmente es investigador en Quantil, donde está trabajando en temas relacionas a la predicción de crimen y Fairness. Adicionalmente es investigador en la Universidad de los Andes para la facultad de Economía donde trabaja en un modelo de pronósticos de clima y polución para Bogotá.