Introducción a R para las Ciencias Sociales
Actualmente, los profesionales de las ciencias sociales tienen acceso a grandes volúmenes de información al desarrollar investigaciones, consultorías o trabajando en el sector público. Sin embargo, pueden existir barreras en el proceso de análisis como el formato en el que se encuentra la información, la cantidad de procesos que deben repetirse o los tipos de indicadores que se deben calcular a partir de múltiples tipos de información Respondiendo a este tipo de escenarios, este curso ofrece las herramientas para sistematizar el proceso de preparar la información e identificar patrones aplicando conceptos básicos de la estadística.
Aunque la formación en el análisis de datos es cada vez más común y los profesionales de las ciencias sociales tienen alguna aproximación con nociones básicas de estadística, es poco común que manejen herramientas para realizar tareas de preprocesamiento y análisis de información con las ventajas de un lenguaje de programación (ej., se documenta el proceso, es replicable, permite la automatización de tareas, etcétera). De esta forma, el curso usará ejemplos prácticos de análisis de información presupuestal, electoral, textual y de opinión pública para presentar diferentes herramientas en R para el procesamiento de información y su análisis estadístico.
Dirigido a
El curso está dirigido a personas que deseen adquirir habilidades en R para el análisis de los tipos de datos más comunes en las ciencias sociales. Se espera que el curso sea tomado por personas que cumplan actividades de análisis de información y que deseen incorporar nuevas herramientas que faciliten acceder a nuevas fuentes de información, procesar un mayor volumen de datos y explorarla usando herramientas básicas de la estadística. Este curso es introductorio, por lo que no se requiere experiencia previa de programación, y espera iniciar un proceso de aprendizaje autónomo de funcionalidades adicionales.
Objetivos
Al finalizar el curso el estudiante estará en capacidad de:
1. Usar R como una herramienta para el análisis de datos.
2. Aprender autónomamente sobre el uso de funciones adicionales del lenguaje R a las cubiertas por el curso.
3. Recolectar información, limpiarla, procesarla y analizarla.
4. Aplicar conceptos básicos de la estadística al análisis de datos.
Metodología
El curso se desarrollará de forma virtual. La introducción de los temas se hará mediante la presentación de casos aplicados que permitan apreciar la aplicación de diferentes funciones. De forma simultánea se hará una explicación de su funcionamiento y las variaciones posibles. Las clases magistrales estarán acompañadas de pequeños ejercicios de aplicación, donde los estudiantes puedan poner a prueba las herramientas presentadas. Se usarán ejemplos relacionados con la extracción y análisis de información en hojas de cálculo, documentos, y encuestas de opinión.
A lo largo del curso, se hará uso del software R y del complemento RStudio. Dentro de esta plataforma se irán incorporando diferentes librerías de acceso libre que amplíen las funcionalidades disponibles.
Al final del curso, los estudiantes deberán completar una prueba de análisis que incorpore las herramientas durante el curso.
Contenido
Sesión 1: Introducción a R y R Studio
- ¿Qué es R?
- Instalación de R y Rstudio
- Interfaz de RStudio
- Tipos y estructura de datos
- Funciones y librerías de funciones (nociones básicas)
- ¿Dónde buscar ayuda?
Sesión 2. Funciones y librerías. Fundamentos de programación: primeros pasos en R
- Sintaxis de R: operadores y operandos
- Sintaxis de R: funciones y argumentos
- Uso de condicionales: if, else, ifelse
- Loops: for, while, repeat
- Vectores y atributos de los vectores
- Manipulación de datos y estructuras de datos
- Instalar y cargar paquetes
Sesión 3: Manejo de datos en R
- Manejo básico de dataframes: selección de filas y/o columnas, selección condicionada.
- Importación de datos
- Análisis inicial de la información
- Manejo de datos con dplyr
- Datos relacionados
- Exportación de información
Sesión 4: Limpieza y arreglo de información textual
- Estandarización y limpieza del texto (Regex, grep, substr)
- Palabras vacías o stopwords
- Tokenización
- Lemmas
Sesión 5. Probabilidad y distribuciones
- Muestreo aleatorio
- Distribuciones discretas
- Distribuciones continuas
Sesión 6: Estadísticas descriptivas
- Medidas de tendencia central
- Medidas de dispersión (varianza)
- Cálculo de índices
Sesión 7: Pruebas de asociación
- Pruebas de hipótesis
- Pruebas de correlación
- Fundamentos de regresión lineal
Sesión 8: Análisis de encuestas de opinión
- Diseño muestral
- Factores de expansión
- Estimaciones subnacionales
Sesión 9: Análisis de encuestas de opinión
- Características de las preguntas
- Calidad de las medidas
- Escalas
Sesión 10: Experimentos
- Fundamentos
- Poder estadístico
- Diseño
- Análisis
Condiciones
Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.
La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.