Inferencia de redes complejas de regulación génica a partir de relevamientos transcripcionales de gran escala

Una gran variedad de funciones celulares, como la respuesta a estrés, el mantenimiento del estado celular y el dimorfismo, entre otras, son controladas por programas de regulación génica que deben ajustar los cambios en los niveles de expresión de cada gen a lo largo del tiempo de forma coordinada. En los últimos años, avances en técnicas de secuenciación de alto rendimiento permitieron abordar el estudio del funcionamiento celular a partir de propiedades de redes de interacciones entre sus constituyentes moleculares. Este abordaje sistémico, propio del estudio de sistemas complejos, utiliza intensivamente la teoría de redes complejas para el estudio a escala global de propiedades de organización y funcionamiento de genes y proteínas dentro de una célula. En este trabajo abordamos esta temática con especial énfasis en desarrollar nuevas herramientas que permitan sacar provecho de la integración de grandes volúmenes de datos. En la primera parte de esta tesis desarrollamos herramientas computacionales para el análisis cuantitativo de datos de RNA-seq tanto a nivel de expresión génica como a nivel de splicing. En particular lo realizado fue implementado como un paquete de código libre y abierto, ASpli, específicamente diseñado y adaptado para integrar en un único framework estadístico distintas señales de splicing provenientes de junturas y cobertura, tomando en cuenta los distintos patrones de splicing alternativo que pueden ocurrir. ASpli se encuentra disponible para su descarga desde el repositorio de paquetes de análisis biológico Bioconductor. La segunda parte de este trabajo consistió en el armado de redes complejas de regulación génica a partir de datos de RNA-seq. Utilizamos para ello una estrategia basada en una heurística de regresiones del tipo Bosques Aleatorios o Random Forest, modificada para incorporar información biológica preexistente codificada en Ontología Génica o Gene Ontology. Esta ontología provee un vocabulario controlado de términos caracterizando las propiedades de los productos génicos. A partir de la misma, es posible definir similaridades entre genes de tipo reguladores y genes de tipo diana, y esto permite modificar las probabilidades de seleccionar un factor de transcripción como variable explicativa en cada árbol del random forest, para cada gen diana, en función de la similaridad entre ese factor de transcripción y el gen. Utilizando esta metodología analizamos datos de RNA-seq de series temporales en A. thaliana y datos de knockout y knockdown de E. coli y S. cerevisiae, obteniendo resultados biológicamente relevantes y en algunos casos mejorando los resultados obtenidos con otras metodologías ampliamente utilizadas para el análisis de este tipo de datos.

Saved in:
Bibliographic Details
Main Author: Rabinovich, Andrés
Other Authors: Chernomoretz, Ariel
Format: info:eu-repo/semantics/doctoralThesis biblioteca
Language:spa
Published: Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales
Subjects:REDES COMPLEJAS DE ORIGEN BIOLOGICO, RNA-SEQ, SPLICING ALTERNATIVO, BIOLOGICAL COMPLEX NETWORKS, ALTERNATIVE SPLICING,
Online Access:https://hdl.handle.net/20.500.12110/tesis_n7221_Rabinovich
http://repositoriouba.sisbi.uba.ar/gsdl/cgi-bin/library.cgi?a=d&c=aextesis&d=tesis_n7221_Rabinovich_oai
Tags: Add Tag
No Tags, Be the first to tag this record!