Curso Bioestadística I: análisis de datos biológicos en R

Curso

Curso Bioestadística I: análisis de datos biológicos en R

Departamento de Ingeniería Civil y Ambiental
Inicio / Programas / Curso Bioestadística I: análisis de datos biológicos en R

Bioestadística y datos biológicos en R

La bioestadística es una disciplina que proporciona las herramientas necesarias para gestionar datos biológicos, en su edición y análisis. Un buen manejo de la bioestadística es esencial para poder contestar preguntas biológicas o ecológicas, usando los datos apropiados, análisis necesarios y expresando los resultados de manera concisa y clara para facilitar su interpretación. En la actualidad, existe un mayor acceso a grandes cantidades de datos biológicos y ambientales de buena calidad, lo que supone grandes oportunidades para entender mejor nuestro frágil y siempre cambiante entorno ecológico. No obstante, el análisis correcto de estos datos sigue siendo un gran reto, y el constante mejoramiento de las técnicas hace indispensable la formación en bioestadística básica de los estudiantes y profesionales, para llegar a las mejores conclusiones ambientales posibles.

Herramienta (software de análisis y modelación)

R es un programa estadístico gratuito de libre acceso, que es continuamente actualizado y mejorado por los propios usuarios, mediante la creación y mantenimiento de nuevas bibliotecas de trabajo. Hoy en día, R se ha convertido en una herramienta imprescindible para cualquier científico de ciencias de la vida y de la tierra, y ha atraído a miles de usuarios en el mundo. El manejo de R puede resultar difícil al inicio por su estructura plana y poco interactiva, además de la necesidad de navegar en el programa con scripts de comandos. No obstante, con tiempo, usar R se vuelve más fácil y repetitivo, y el programa puede entonces ofrecer a sus usuarios una amplia gama de aplicaciones. Por su complejidad inicial, R es poco enseñado a nivel de pregrado, dado que los estudiantes apenas se familiarizan con la estadística. A nivel de posgrado y profesional, R se destaca por permitir manejar estadística avanzada en un entorno relativamente sencillo. Muchas revistas científicas indexadas hoy en día reconocen a R como programa clave y prefieren o hasta requieren su uso en manuscritos para publicación.

Dirigido a

Este curso va dirigido a profesionales y estudiantes de pregrado o posgrado en ciencias naturales y ambientales que quieren desarrollar su conocimiento en bioestadística y aprender a manejar el programa R. Se esperan participantes especializados o especializándose en ecología, biología o ciencias ambientales, pero también profesionales y estudiantes en ciencias forestales y agronómicas. Se aceptarán otros perfiles profesionales previo a la consulta con la profesora de acuerdo con el perfil del participante.

Objetivos

Objetivo general

El curso tiene como objeto principal proporcionar a los estudiantes las herramientas para editar y analizar datos biológicos en R. Se ofrecerán la teoría y práctica suficientes para que los estudiantes puedan en el futuro reproducir y adaptar los análisis vistos en clase a situaciones concretas pero que también muestren un manejo de R suficientemente ágil para extrapolar sus conocimientos a diferentes tipos de análisis.

Objetivos específicos

Se espera que al finalizar el curso, los estudiantes estén en capacidad de:

  • Manejar el programa R, scripts de comandos, gráficos y análisis.
  • Editar bases de datos biológicas (observaciones y variables).
  • Conocer la teoría de la bioestadística y aplicaciones en R de análisis descriptivos, univariados, bivariados y multivariados.
  • Realizar representación númerica y gráfica de datos y resultados.

Metodología

El curso es de 27 horas, divididas en 9 sesiones teórico-prácticas de 3 horas cada una, durante 8 días, más 27 horas de trabajo personal adicional (ej. búsqueda de bibliografía, trabajo en scripts). Al final del curso, los estudiantes tendrán que realizar un trabajo corto de análisis estadístico en R que presentarán frente a la clase. Se espera que con este trabajo los estudiantes se entrenen en usar R en situación no-supervisada y en interactuar y recibir feedback sobre sus resultados por parte de sus compañeros.

Contenido

Sesión 1: Introducción a R
Introducción al programa. Comandos básicos en R. Obtención y edición de las bases de datos de trabajo: datos biológicos (cualitativos, cuantitativos) y datos ambientales (continuos, discretos, dependientes e independientes).

Sesión 2: Estadística descriptiva y representación de la información
Medidas de dispersión y variabilidad. Tablas y gráficos para presentar datos y resultados.

Sesión 3: Métodos univariados
Planteamiento de hipótesis de trabajo. Distribución normal y alternativas, y sus propiedades. Pruebas paramétricas vs. no-paramétricas.

Sesión 4: Métodos bivariados
Comparaciones de muestras (ej. t-Student, Chi2), Análisis de varianza (ej. ANOVA), Correlaciones (coef. de Spearman).

Sesión 5: Métodos multivariados 1
Matrices. Ordenaciones (ej. Análisis de componentes principales, Análisis Canónica de correspondencias).

Sesión 6: Métodos multivariados 2
Clasificaciones jerárquicas (ej. Clustering jerárquico aglomerativo) y no-jerárquicas (ej. K-means, Fuzzy C-means).

Sesión 7: Métodos multivariados 3
Análisis discriminantes (linear, cuadrática). Análisis de regresión.

Sesión 8: Preparación de la presentación
Trabajo en equipos de 2 o 3: (1) Planteamiento de pregunta(s) ecológica(s), (2) Creación y corrida de un script elaborado en R con datos reales, (3) representación numérica y gráfica de los resultados, (4) interpretación de los resultados y (5) creación de un PowerPoint corto (max. 10 diapositivas) resumiendo el trabajo.

Sesión 9. Exposición de la presentación
Exposición oral de PowerPoint en equipo (15 min). Debate entre los estudiantes (5 min).