Introducción al análisis de datos en R

Curso

Introducción al análisis de datos en R

Facultad de Economía
Inicio / Programas / Introducción al análisis de datos en R

Introducción al análisis de datos en R

En el mundo laboral debido al incremento en el volumen de datos y la necesidad de automatización de tareas se ha generado la necesidad de implementar nuevos softwares y lenguajes de programación a las tareas del día a día. Adicionalmente, al ser R open source, muchos de los desarrollos de la frontera de conocimiento se han implementado en R, por lo que el aprendizaje de R es vital para los investigadores. En respuesta a esta necesidad, el curso de Introducción al análisis de datos en R busca que los estudiantes adquieran una comprensión general del lenguaje de R, su utilidad para el análisis de datos y automatización de tareas. En el curso se tratarán las sintaxis básicas de programación, el manejo de datos y su visualización. Así, el énfasis será sobre la importación, organización, manejo y análisis de datos y la presentación de resultados.

Este curso hace parte del programa Finanzas cuantitativas en R. Ver más aquí.

Dirigido a

El curso está dirigido a personas que deseen desarrollar habilidades de programación en R. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio del manejo y el análisis de datos, la automatización de procesos y la presentación de resultados. De igual forma, se espera ofrecerles a los analistas e investigadores que no han tenido la oportunidad de tener un acercamiento a la programación una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación. Por último, el curso les dará las herramientas necesarias para tomar cursos aplicados de educación continua en los cuales se mostrará el uso de R a problemas de diferentes industrias. El curso no tiene requisitos para su inscripción.

Notas: 

•  Este primer curso del programa Finanzas en R, no está enfocado en finanzas, aunque habrá algunas aplicaciones relacionadas. El foco de este curso para los interesados en el programa completo será el aprendizaje del lenguaje para sacar el máximo provecho de los siguientes cursos cuyo enfoque sí será en las finanzas.

•  Se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 

•  El software que se usará en el curso es Rstudio y R 3.6.3 o superior. Las instrucciones de instalación serán remitidas al inicio del curso.

Objetivos

•  Familiarizar a los estudiantes en el lenguaje de R.

•  Enseñar a los estudiantes los conceptos básicos de programación.

•  Entender los archivos de ayuda sobre paquetes de R.

•  Escribir funciones básicas.

•  Escribir códigos para solucionar problemas de importación y limpieza de datos.

•  Dar herramientas suficientes para el manejo y procesamiento de datos utilizando R.

•  Manipular datos para obtener información relevante.

•  Presentar resultados estadísticos de forma adecuada.

•  Elaborar documentos HTML y PDF. 

•  Enseñar a los estudiantes formas de automatizar tareas en R. 

•  Desarrollar Shiny Apps para la presentación de modelos y generación de reportes.

Metodología

El curso se realizará de manera virtual y cada sesión estará dividida en dos módulos. A su vez, cada módulo estará dividido en dos partes, durante la primera parte de cada módulo el profesor introducirá técnicas, comandos y conceptos relacionados con la utilización de R y utilizará ejemplos que lo ilustren; durante la segunda parte los estudiantes deberán trabajar individualmente en un ejercicio, el cual deberán entregar al finalizar cada módulo. Adicionalmente, se realizarán 2 talleres en clase en los cuales se espera que los estudiantes, con ayuda del profesor, reafirmen sus conocimientos. 

Contenido

Primera sesión

Módulo 1:

•  ¿Qué es R? ¿Por qué R?

•  Instalación de R y R Studio. Instalación y carga de paquetes.

•  Paneles de R Studio y scripts

•  Personalización de R Studio. 

•  Conceptos básicos de sintaxis en R.

•  Tipos de datos: entero, numérico, lógico, character. Missings: NaN, NA.

•  Estructuras de datos: vectores, matrices, listas, arrays, data frames. 

•  Operaciones básicas.

Módulo 2:

•  Funciones relevantes para la identificación y conversión de tipos de objetos y datos (coerción).

•  ¿Dónde buscar ayuda?

•  Asignar datos a objetos

•  Extraer información de objetos.

•  Uso de vectores lógicos para extraer información de objetos. 

Segunda sesión

Módulo 1:

•  Funciones.

•  Uso de condicionales: if, else, ifelse.

•  Depuración de errores en funciones: debug, undebug, traceback.

•  Inclusión de controles en las funciones: warning, stop.

•  Loops: while, for, repeat.

Módulo 2:

•  Controles de flujo: next, break

•  Funciones apply, sapply, tapply, lappy

•  Instalar y cargar paquetes.

•  Función ddply

Tercera sesión

Módulo 1:

•  Manejo básico data frames: selección de filas y/o columnas, selección condicionada.

•  Creación de muestras y subconjuntos de data frames: subset, sample_n.

•  Importación de datos: dta, sav, csv, xlsx.

•  Inspección inicial de la información.

Módulo 2:

•  Raw data vs tidy data.

•  Organización y limpieza de bases de datos con los paquetes tidyr y dplyr.

•  Análisis descriptivo.

•  Exportación de bases de datos: dta, csv, xlsx, txt.

Cuarta sesión

Módulo 1: 

•  Taller en clase: Automatización de lectura de archivos y    almacenamiento de información.

Módulo 2:

•  Gráficos del paquete base: histogramas, scatter plot, bar plot, box plot.

•  Introducción a ggplot2.

•  Importación de base de datos raw y exportación de un archivo organizado (tidy). 

Quinta sesión

Módulo 1:

•  Relación entre la organización de los datos y ggplot2: dplyr y ggplot2.

•  Otras herramientas para visualización de datos: mapas de calor, mosaicos, otros. 

Módulo 2:

•  Personalización de gráficos: ejes, colores, títulos.

•  Exportación de gráficos. 

Sexta sesión

Módulo 1:

•  Shiny: archivo de interfaz (ui), archivo de procesos (server).

•  Introducción y uso de widgets. 

Módulo 2:

•  Introducción a RMarkdown. 

•  Elaboración de documentos PDF. 

•  Elaboración de documentos HTML.

Séptima sesión

•  Taller en clase: Diseño de un shiny que lea una base de datos, la procese, almacene información aplique cálculos, retorne gráficas y genere un reporte en pdf.

Profesores

Juan Sebastián Moreno Pabón

Coordinador académico: Trabaja con los profesores en el diseño, construcción y mejoras de los contenidos, pero no es profesor del curso. Actualmente trabaja en Pinpoint Predictive, un start-up de psicometría de Silicon Valley apoyado por la incubadora de Stanford, StartX . En su rol como Investigador Senior desarrolla y despliega técnicas de inteligencia artificial para predecir comportamientos a partir de psicometría. Juan Moreno pasó cuatro años como investigador y luego como director asociado del departamento de minería de datos de Quantil, consultora en matemáticas aplicadas y machine learning. Lideró equipos de investigadores y desarrolló una amplia variedad de soluciones impulsadas por inteligencia artificial en diferentes sectores, que incluyen salud, seguridad pública, banca, transporte, educación, legal y manufactura, entre otros. Juan también ha trabajado como profesor de cátedra en el Departamento de Economía de su alma mater, la Universidad de los Andes, donde ha impartido cursos sobre matemáticas discretas, macroeconomía, aprendizaje automático, Python y R para análisis de datos. Como científico social computacional, Juan ha investigado temas relacionados a la predicción de delitos, la equidad en las aplicaciones de aprendizaje automático y la segregación en las redes sociales. También es miembro de la junta directiva del Centro de Analítica para Políticas Públicas (CAPP).

Condiciones

Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.

La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.