Análisis de datos biológicos en Python

Curso

Análisis de datos biológicos en Python

Departamento de Ciencias Biológicas
Inicio / Programas / Análisis de datos biológicos en Python

Análisis de datos biológicos en Python

El avance en la capacidad de cómputo de los ordenadores modernos ha permitido el desarrollo de algoritmos y paquetes de funcionalidades que permiten analizar crecientes cantidades de datos. En el marco de la biología, esto ha sido de particular utilidad dada la paralela explosión en la cantidad de datos producidos por las técnicas de secuenciación modernas, así como la complejidad de estos últimos.

En esta coyuntura, es fundamental para los investigadores y los profesionales tener una comprensión suficiente tanto de los algoritmos y paquetes disponibles para el análisis de datos de experimentos biológicos, como de los lenguajes de programación sobre los que estos se ejecutan. Así pues, este curso busca proveer el conocimiento teórico y práctico necesario para el manejo efectivo de las herramientas bioinformáticas requeridas para trabajar con datos biológicos.

Este curso ofrece las bases tanto teóricas como prácticas para el correcto análisis de datos biológicos. Para cada tema visto se proveerá una explicación teórica de la motivación del problema, la naturaleza de los datos generados, y el funcionamiento general de los algoritmos requeridos para su solución. En conjunción, se explicarán en detalle los mecanismos para implementarlo en sesiones locales de Python. En otras palabras, se le busca dar a los estudiantes una comprensión holística de los temas a tratar, en oposición a una mera descripción del código requerido para el análisis.

Asimismo, el curso tratará un amplio rango de tipos de datos y formas de análisis. Iniciando con herramientas básicas, como alineamientos pareados y búsqueda en bases de datos, hasta aquellas en boga en estudios científicos más recientes, como herramientas de visualización de datos multidimensionales y de machine learning.

Con el fin de garantizar que estudiantes con distintos trasfondos puedan beneficiarse de la mejor manera del curso, se iniciará con un repaso de biología molecular, así como con una explicación del manejo básico de Python.

Dirigido a

Profesionales que trabajen con datos de origen biológico, independientemente de su experiencia. Profesionales de Biología, Biomedicina, Bioquímica, Biotecnología, Ingeniería Biomédica, Microbiología, entre otras.

Si bien no es estrictamente requerido, pues se proveerá un repaso breve de biología molecular al inicio del curso, se recomienda que las personas interesadas posean conocimientos básicos de biología celular.

Objetivos

Al finalizar el curso, el estudiante estará en capacidad de:

  • Comprender y aplicar los fundamentos de programación en Python, incluyendo la manipulación de objetos básicos, el uso de estructuras de control y la creación de funciones.
  • Utilizar paquetes esenciales de Python para el análisis de datos biológicos, como NumPy para el manejo de matrices y vectores, Pandas para el manejo de data frames y Plotly para la creación de gráficas interactivas.
  • Realizar análisis básicos de secuencias biológicas, incluyendo la exploración de bases de datos, alineamientos pareados y múltiples, procesamiento y anotación de secuencias, y análisis filogenéticos.
  • Aplicar técnicas estadísticas y de modelado para el análisis de datos biológicos, incluyendo pruebas estadísticas básicas, análisis de regresión y correlación, y modelamiento de datos de expresión génica.
  • Visualizar e interpretar datos biológicos utilizando herramientas y técnicas avanzadas de visualización, incluyendo UMAP, t-SNE, gráficos de volcán y técnicas de PCA, así como la creación de animaciones para la representación de datos dinámicos.

Metodología

El curso se realizará en modalidad virtual en forma de clases magistrales. El componente teórico se explicará a través de presentaciones, mientras que la práctica a través de notebooks de Jupyter que explican la implementación de las herramientas de análisis en casos de estudio.

Contenido

Introducción a Python:

Descripción de Python.

Jupyter notebook.

Objetos básicos.

Listas y vectores.

Funciones.

Ciclos y condicionales.

List comprehension.

Manejo básico de archivos.

Especificadores de formato.

Paquetes Básicos para Análisis de Datos:

Numpy - Manejo de matrices y vectores.

  • Manejo básico de imágenes.

Plotly - manejo de gráficas.

Pandas - manejo de data frames.

Fundamentos de Biología Molecular

Análisis de secuencias

Bases de datos.

Exploración de secuencias.

Uso y búsqueda en bases de datos.

Alineamientos pareados (BLAST).

Alineamientos múltiples (HMM).

Procesamiento de datos y anotación de secuencias.

Ensamblaje y Filogenias

Métodos de ensamblaje para reads cortos y largos.

Algoritmos filogenéticos.

  • Neighbor-Joining.
  • Máxima verosimilitud.
  • Métodos bayesianos.

Análisis estadístico

Pruebas estadísticas básicas (t-test, chi, spearman, pruebas de normalidad, etc).

Pruebas de regresión y correlación.

Corrección de valores para múltiples pruebas.

Cálculo TPMs y RPKMs para RNA.

Visualización

UMAP.

t-SNE.

Volcano plots para RNA.

PCA.

Animaciones con plotly.

Modelos biológicos y Machine Learning

Modelamiento biológico básico.

K-means y K-medoids.

Regresiones (regresión multinomial, lineal multivariada, GLM y GMM).

Árboles de decisión y random forest.

Modelamiento básico de redes neuronales y máquinas de soporte vectorial.

Análisis de Redes

Teoría básica de redes.

Cálculo de propiedades básicas de redes (conectividad, hubs, centralidad,etc).

Visualización de redes.

Otros análisis (conceptos básicos)

Bases de metagenómica.

Bases de RNA-seq.

Análisis de variantes y epigenética.

Profesores

Dayanne Paola Chaparro Avellaneda

Microbióloga y bióloga con Maestría en Biología Computacional de la Universidad de los Andes. Experiencia en diversos proyectos que implican manejar grandes cantidades de datos y programar en Python, Java y R para análisis de datos metagenómicos provenientes de suelo de manglar colombiano. Conocimientos en técnicas moleculares con el fin de extraer y secuenciar para posterior análisis bioinformático. Experiencia como docente de laboratorios de biología molecular y como asistente de docencia de la clase de bioinformática de maestría.

Juan Sebastián Andrade

Estudiante doctoral en Weill Cornell Medicine con maestría en Biología Computacional de la Universidad de los Andes. Su experiencia de trabajo incluye estudios de filogenia viral en virus y bacteriófagos de ADN de doble cadena. Asimismo, ha participado en proyectos de elaboración de herramientas para análisis de TILLING y de viromas. Actualmente trabaja en métodos de detección de células de origen para adenocarcinoma de pulmón.

Condiciones

Eventualmente la Universidad puede verse obligada, por causas de fuerza mayor a cambiar sus profesores o cancelar el programa. En este caso el participante podrá optar por la devolución de su dinero o reinvertirlo en otro curso de Educación Continua que se ofrezca en ese momento, asumiendo la diferencia si la hubiere.

La apertura y desarrollo del programa estará sujeto al número de inscritos. El Departamento/Facultad (Unidad académica que ofrece el curso) de la Universidad de los Andes se reserva el derecho de admisión dependiendo del perfil académico de los aspirantes.