Introducción al análisis de datos en R

Curso

Introducción al análisis de datos en R

Facultad de Economía
Inicio / Programas / Introducción al análisis de datos en R

Introducción al análisis de datos en R

En el mundo laboral debido al incremento en el volumen de datos y la necesidad de automatización de tareas se ha generado la necesidad de implementar nuevos softwares y lenguajes de programación a las tareas del día a día. Adicionalmente, al ser R open source, muchos de los desarrollos de la frontera de conocimiento se han implementado en R, por lo que el aprendizaje de R es vital para los investigadores. En respuesta a esta necesidad, el curso de Introducción al análisis de datos en R busca que los estudiantes adquieran una comprensión general del lenguaje de R, su utilidad para el análisis de datos y automatización de tareas. En el curso se tratarán las sintaxis básicas de programación, el manejo de datos y su visualización. Así, el énfasis será sobre la importación, organización, manejo y análisis de datos y la presentación de resultados. 

Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 
El software que usará es Rstudio y R 3.6.3 o superior. Las instrucciones de instalación serán remitidas al inicio del curso.

Este curso hace parte del programa Finanzas cuantitativas en R. Ver más aquí.

Dirigido a

El curso está dirigido a personas que deseen desarrollar habilidades de programación en R. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio del manejo y el análisis de datos, la automatización de procesos y la presentación de resultados. De igual forma, se espera ofrecerles a los analistas e investigadores que no han tenido la oportunidad de tener un acercamiento a la programación una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación. Por último, el curso les dará las herramientas necesarias para tomar cursos aplicados de educación continuada en los cuales se mostrará el uso de R a problemas de diferentes industrias. El curso no tiene requisitos para su inscripción.

Objetivos

•    Familiarizar a los estudiantes en el lenguaje de R.
•    Enseñar a los estudiantes los conceptos básicos de programación.
•    Entender los archivos de ayuda sobre paquetes de R.
•    Escribir funciones básicas.
•    Escribir códigos para solucionar problemas de importación y limpieza de datos.
•    Dar herramientas suficientes para el manejo y procesamiento de datos utilizando R.
•    Manipular datos para obtener información relevante.
•    Presentar resultados estadísticos de forma adecuada.
•    Elaborar documentos HTML y PDF. 
•    Enseñar a los estudiantes formas de automatizar tareas en R. 
•    Desarrollar Shiny Apps para la presentación de modelos y generación de reportes.
 

Metodología

El curso se realizará virtualmente. Cada sesión estará dividida en dos módulos, durante la primera parte de cada módulo el profesor introducirá técnicas, comandos y conceptos relacionados con la utilización de R y utilizará ejemplos que lo ilustren; durante la segunda parte los estudiantes deberán trabajar individualmente en un ejercicio, el cual deberán entregar cuando el módulo finalice.

Nota: se sugiere que el estudiante interesado en el curso cuente con un computador de 4GB de RAM pero preferiblemente 8GB en adelante. 
El software que usará es Rstudio y R 3.6.3 o superior. Las instrucciones de instalación serán remitidas al inicio del curso.

Contenido

Primera sesión

Módulo 1:
•    ¿Qué es R? ¿Por qué R?
•    Instalación de R y R Studio. Instalación y carga de paquetes.
•    Paneles de R Studio y scripts
•    Personalización de R Studio. 
•    Conceptos básicos de sintaxis en R.
•    Tipos de datos: entero, numérico, lógico, character. Missings: NaN, NA.
•    Estructuras de datos: vectores, matrices, listas, arrays, data frames. 
•    Operaciones básicas.

Módulo 2:
•    Funciones relevantes para la identificación y conversión de tipos de objetos y datos (coerción).
•    ¿Dónde buscar ayuda?
•    Asignar datos a objetos
•    Extraer información de objetos.
•    Uso de vectores lógicos para extraer información de objetos. 

Segunda sesión

Módulo 1:
•    Funciones.
•    Uso de condicionales: if, else, ifelse.
•    Depuración de errores en funciones: debug, undebug, traceback.
•    Inclusión de controles en las funciones: warning, stop.
•    Loops: while, for, repeat.

Módulo 2:
•    Controles de flujo: next, break
•    Funciones apply, sapply, tapply, lappy
•    Instalar y cargar paquetes.
•    Función ddply

Tercera sesión

Módulo 1:
•    Manejo básico data frames: selección de filas y/o columnas, selección condicionada.
•    Creación de muestras y subconjuntos de data frames: subset, sample_n.
•    Importación de datos: dta, sav, csv, xlsx.
•    Inspección inicial de la información.

Módulo 2:
•    Raw data vs tidy data.
•    Organización y limpieza de bases de datos con los paquetes tidyr y dplyr.
•    Análisis descriptivo.
•    Exportación de bases de datos: dta, csv, xlsx, txt.

Cuarta sesión

Módulo 1: 

Taller en clase: Automatización de lectura de archivos y almacenamiento de información.

Módulo 2:
•    Gráficos del paquete base: histogramas, scatter plot, bar plot, box plot.
•    Introducción a ggplot2.
•    Importación de base de datos raw y exportación de un archivo organizado (tidy). 

Quinta sesión

Módulo 1:
•    Relación entre la organización de los datos y ggplot2: dplyr y ggplot2.
•    Otras herramientas para visualización de datos: mapas de calor, mosaicos, otros. 

Módulo 2:
•    Personalización de gráficos: ejes, colores, títulos.
•    Exportación de gráficos. 

Sexta sesión

Módulo 1:
•    Shiny: archivo de interfaz (ui), archivo de procesos (server).
•    Introducción y uso de widgets. 

Módulo 2:
•    Introducción a RMarkdown. 
•    Elaboración de documentos PDF. 
•    Elaboración de documentos HTML.

Séptima sesión

•    Taller en clase: Diseño de un shiny que lea una base de datos, la procese, almacene información aplique cálculos, retorne gráficas y genere un reporte en pdf.

Profesores

Julián Chitiva

Economista y Matemático de la Universidad de los Andes, y M.Sc. en Economía en la misma universidad. Como matemático, tiene gran interés por las matemáticas puras y aplicadas, especialmente por la combinatoria, la geometría, la estadística, la teoría de juegos y las finanzas. Como economista, tiene gran interés por la teoría de redes, la economía de la información y la teoría de contratos. Ha trabajado como asistente de investigación en el Centro de Estudios sobre el Desarrollo Económico –CEDE- de la Universidad de los Andes. Adicionalmente, ha sido profesor complementario/asistente en diferentes cursos tanto en la Facultad de Economía como en el Departamento de Matemáticas. Tiene experiencia en el manejo de herramientas cuantitativas y paquetes estadísticos tales como Stata, R, Matlab y Python. Actualmente es Investigador Senior del área de Matemáticas Financieras en Quantil.