Introducción de Análisis de Datos en R
En el mundo laboral debido al incremento en el volumen de datos y la necesidad de automatización de tareas se ha generado la necesidad de implementar nuevos softwares y lenguajes de programación a las tareas del día a día. Adicionalmente, al ser R open source, muchos de los desarrollos de la frontera de conocimiento se han implementado en R, por lo que el aprendizaje de R es vital para los investigadores. En respuesta a esta necesidad, el curso de Introducción al análisis de datos en R busca que los estudiantes adquieran una comprensión general del lenguaje de R, su utilidad para el análisis de datos y automatización de tareas. En el curso se tratarán las sintaxis básicas de programación, el manejo de datos y su visualización. Así, el énfasis será sobre la importación, organización, manejo y análisis de datos y la presentación de resultados.
Para regresar a la página del Programa Análisis financiero en R
Este curso hace parte del programa Programa Análisis financiero en R (5 cursos). Ver más aquí.
Dirigido a
El curso está dirigido a personas que deseen desarrollar habilidades de programación en R. Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio del manejo y el análisis de datos, la automatización de procesos y la presentación de resultados. De igual forma, se espera ofrecerles a los analistas e investigadores que no han tenido la oportunidad de tener un acercamiento a la programación una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación. Por último, el curso les dará las herramientas necesarias a las personas que deseen tomar otros cursos aplicados de educación continuada, en los cuales se mostrará el uso de R a problemas de diferentes industrias. El curso no tiene requisitos para su inscripción.
Se espera que el curso sea tomado por personas en el entorno laboral que deseen generar un impacto positivo en sus organizaciones por medio del manejo y el análisis de datos, la automatización de procesos y la presentación de resultados. De igual forma, se espera ofrecerles a los analistas e investigadores que no han tenido la oportunidad de tener un acercamiento a la programación una herramienta con la que podrán iniciar su aprendizaje en los lenguajes de programación.
Objetivos
- Familiarizar a los estudiantes en el lenguaje de R.
- Enseñar a los estudiantes los conceptos básicos de programación.
- Entender los archivos de ayuda sobre paquetes de R.
- Escribir funciones básicas.
- Escribir códigos para solucionar problemas de importación y limpieza de datos.
- Dar herramientas suficientes para el manejo y procesamiento de datos utilizando R.
- Manipular datos para obtener información relevante.
- Presentar resultados estadísticos de forma adecuada.
- Elaborar documentos HTML y PDF.
- Enseñar a los estudiantes formas de automatizar tareas en R.
- Desarrollar aplicativos con Shiny para la presentación de modelos y generación de reportes.
Metodología
El curso se realizará en salas habilitadas para el uso de computadores y cada sesión estará dividida en dos módulos. A su vez, cada módulo estará dividido en dos partes, durante la primera parte de cada módulo el profesor introducirá técnicas, comandos y conceptos relacionados con la utilización de R y utilizará ejemplos que lo ilustren; durante la segunda parte los estudiantes deberán trabajar individualmente en un ejercicio, el cual deberán entregar al finalizar cada módulo. Adicionalmente, se realizarán 2 talleres en clase en los cuales se espera que los estudiantes, con ayuda del profesor, reafirmen sus conocimientos.
Contenido
Sesión 1:
Modulo 1:
- ¿Qué es R? ¿Por qué R?
- Instalación de R y R Studio. Instalación y carga de paquetes.
- Paneles de R Studio y scripts
- Personalización de R Studio.
- Conceptos básicos de sintaxis en R.
- Tipos de datos: entero, numérico, lógico, character. Missings: NaN, NA.
- Estructuras de datos: vectores, matrices, listas, arrays, data frames.
- Operaciones básicas.
Módulo 2:
- Funciones relevantes para la identificación y conversión de tipos de objetos y datos (coerción).
- ¿Dónde buscar ayuda?
- Asignar datos a objetos
- Extraer información de objetos.
- Uso de vectores lógicos para extraer información de objetos.
Sesión 2:
Módulo 1:
- Funciones.
- Uso de condicionales: if, else, ifelse.
- Depuración de errores en funciones: debug, undebug, traceback.
- Inclusión de controles en las funciones: warning, stop.
- Loops: while, for, repeat.
Módulo 2:
- Controles de flujo: next, break
- Funciones apply, sapply, tapply, lappy
- Instalar y cargar paquetes.
- Función ddply
Sesión 3:
Módulo 1:
- Manejo básico data frames: selección de filas y/o columnas, selección condicionada.
- Creación de muestras y subconjuntos de data frames: subset, sample_n.
- Importación de datos: dta, sav, csv, xlsx.
- Inspección inicial de la información.
Módulo 2:
- Raw data vs tidy data.
- Organización y limpieza de bases de datos con los paquetes tidyr y dplyr.
- Análisis descriptivo.
- Exportación de bases de datos: dta, csv, xlsx, txt.
Sesión 4:
- Gráficos del paquete base: histogramas, scatter plot, bar plot, box plot.
- Introducción a ggplot2.
- Taller en clase 1: Automatización de lectura de archivos y almacenamiento de información.
- Importación de base de datos raw y exportación de un archivo organizado (tidy).
Sesión 5:
Módulo 1:
- Relación entre la organización de los datos y ggplot2: dplyr y ggplot2.
- Otras herramientas para visualización de datos: mapas de calor, mosaicos, otros.
Módulo 2:
- Personalización de gráficos: ejes, colores, títulos.
- Exportación de gráficos.
Sesión 6:
Módulo 1:
- Shiny: archivo de interfaz (ui), archivo de procesos (server).
- Introducción y uso de widgets.
Módulo 2:
- Introducción a RMarkdown.
- Elaboración de documentos PDF.
- Elaboración de documentos HTML.
Sesión 7:
Taller en clase 2: Diseño de un shiny que lea una base de datos, la procese, almacene información aplique cálculos, retorne gráficas y genere un reporte en pdf.
Condiciones
Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.
La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.