Curso Introducción al análisis de datos en R

Curso

Curso Introducción al análisis de datos en R

Facultad Economía
Inicio / Programas / Curso Introducción al análisis de datos en R

Introducción de Análisis de Datos en R

En el mundo laboral debido al incremento en el volumen de datos y la necesidad de automatización de tareas se ha generado la necesidad de implementar nuevos softwares y lenguajes de programación a las tareas del día a día. Adicionalmente, al ser R open source, muchos de los desarrollos de la frontera de conocimiento se han implementado en R, por lo que el aprendizaje de R es vital para los investigadores. En respuesta a esta necesidad, el curso de Introducción al análisis de datos en R busca que los estudiantes adquieran una comprensión general del lenguaje de R, su utilidad para el análisis de datos y automatización de tareas. En el curso se tratarán las sintaxis básicas de programación, el manejo de datos y su visualización. Así, el énfasis será sobre la importación, organización, manejo y análisis de datos y la presentación de resultados.

Para regresar a la página del Programa Análisis financiero en R

Este curso hace parte del programa Programa Análisis financiero en R (5 cursos). Ver más aquí.

Dirigido a

El curso está dirigido a personas que deseen desarrollar habilidades de programación en R. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio del manejo y el análisis de datos, la automatización de procesos y la presentación de resultados. De igual forma, se espera ofrecerles a los analistas e investigadores que no han tenido la oportunidad de tener un acercamiento a la programación una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación. Por último, el curso les dará las herramientas necesarias a las personas que deseen tomar otros cursos aplicados de educación continuada, en los cuales se mostrará el uso de R a problemas de diferentes industrias. El curso no tiene requisitos para su inscripción.

Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio del manejo y el análisis de datos, la automatización de procesos y la presentación de resultados. De igual forma, se espera ofrecerles a los analistas e investigadores que no han tenido la oportunidad de tener un acercamiento a la programación una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación.

Objetivos

  • Familiarizar a los estudiantes en el lenguaje de R.
  • Enseñar a los estudiantes los conceptos básicos de programación.
  • Entender los archivos de ayuda sobre paquetes de R.
  • Escribir funciones básicas.
  • Escribir códigos para solucionar problemas de importación y limpieza de datos.
  • Dar herramientas suficientes para el manejo y procesamiento de datos utilizando R.
  • Manipular datos para obtener información relevante.
  • Presentar resultados estadísticos de forma adecuada.
  • Elaborar documentos HTML y PDF.
  • Enseñar a los estudiantes formas de automatizar tareas en R.
  • Desarrollar aplicativos con Shiny para la presentación de modelos y generación de reportes.

Metodología

El curso se realizará en salas habilitadas para el uso de computadores y cada sesión estará dividida en dos módulos. A su vez, cada módulo estará dividido en dos partes, durante la primera parte de cada módulo el profesor introducirá técnicas, comandos y conceptos relacionados con la utilización de R y utilizará ejemplos que lo ilustren; durante la segunda parte los estudiantes deberán trabajar individualmente en un ejercicio, el cual deberán entregar al finalizar cada módulo. Adicionalmente, se realizarán 2 talleres en clase en los cuales se espera que los estudiantes, con ayuda del profesor, reafirmen sus conocimientos.

Contenido

Sesión 1:

Modulo 1:

  • ¿Qué es R? ¿Por qué R?
  • Instalación de R y R Studio. Instalación y carga de paquetes.
  • Paneles de R Studio y scripts
  • Personalización de R Studio.
  • Conceptos básicos de sintaxis en R.
  • Tipos de datos: entero, numérico, lógico, character. Missings: NaN, NA.
  • Estructuras de datos: vectores, matrices, listas, arrays, data frames.
  • Operaciones básicas.

Módulo 2:

  • Funciones relevantes para la identificación y conversión de tipos de objetos y datos (coerción).
  • ¿Dónde buscar ayuda?
  • Asignar datos a objetos
  • Extraer información de objetos.
  • Uso de vectores lógicos para extraer información de objetos.

Sesión 2:

Módulo 1:

  • Funciones.
  • Uso de condicionales: if, else, ifelse.
  • Depuración de errores en funciones: debug, undebug, traceback.
  • Inclusión de controles en las funciones: warning, stop.
  • Loops: while, for, repeat.

Módulo 2:

  • Controles de flujo: next, break
  • Funciones apply, sapply, tapply, lappy
  • Instalar y cargar paquetes.
  • Función ddply

Sesión 3:

Módulo 1:

  • Manejo básico data frames: selección de filas y/o columnas, selección condicionada.
  • Creación de muestras y subconjuntos de data frames: subset, sample_n.
  • Importación de datos: dta, sav, csv, xlsx.
  • Inspección inicial de la información.

Módulo 2:

  • Raw data vs tidy data.
  • Organización y limpieza de bases de datos con los paquetes tidyr y dplyr.
  • Análisis descriptivo.
  • Exportación de bases de datos: dta, csv, xlsx, txt.

Sesión 4:

  • Gráficos del paquete base: histogramas, scatter plot, bar plot, box plot.
  • Introducción a ggplot2.
  • Taller en clase 1: Automatización de lectura de archivos y almacenamiento de información.
  • Importación de base de datos raw y exportación de un archivo organizado (tidy).

Sesión 5:

Módulo 1:

  • Relación entre la organización de los datos y ggplot2: dplyr y ggplot2.
  • Otras herramientas para visualización de datos: mapas de calor, mosaicos, otros.

Módulo 2:

  • Personalización de gráficos: ejes, colores, títulos.
  • Exportación de gráficos.

Sesión 6:

Módulo 1:

  • Shiny: archivo de interfaz (ui), archivo de procesos (server).
  • Introducción y uso de widgets.

Módulo 2:

  • Introducción a RMarkdown.
  • Elaboración de documentos PDF.
  • Elaboración de documentos HTML.

Sesión 7:

Taller en clase 2: Diseño de un shiny que lea una base de datos, la procese, almacene información aplique cálculos, retorne gráficas y genere un reporte en pdf.

Profesores

Erick Mauricio Translateur Martínez

Economista y MSc en Economía de la Universidad de los Andes donde obtuvo Grado Cum Laude en ambos títulos. Actualmente se desempeña como investigador senior de matemáticas financieras con enfoque a minería de datos en Quantil (www.quantil.co), matemáticas aplicadas y es profesor asistente del curso de Riesgo y Valoración de Derivados de la Maestría en Economía de la Universidad de los Andes. Su tesis de maestría trata sobre trading algorítmico basado en modelos de machine learning para el análisis de eficiencia y predicción del mercado de TES. Ha trabajado en proyectos de análisis de riesgos de mercado para empresas como Ecopetrol y Constructora Colpatria, implementado modelos predictivos para Colfondos, análisis de riesgo de mercado y derivados para diferentes instituciones financieras y elaborado modelos de procesamiento de lenguaje natural sobre twitter. Todos los anteriores desarrollos y análisis los ha implementado en R y Python. Su área de investigación de interés es la aplicación de técnicas de machine learning al sistema financiero.

Eventualmente la Universidad de los Andes puede verse obligada por motivos de fuerza mayor a cambiar los profesores presentados en este documento.