useR

Una solución integrada con R para el análisis de interacciones entre genes con datos de supervivencia en un estudio GWAS


Jesús Herranz Valera (Centro Nacional de Investigaciones Oncológicas)
Antoni Picornell (Centro Nacional de Investigaciones Oncológicas)
María L. Calle (Universitat de Vic)
Núria Malats (Centro Nacional de Investigaciones Oncológicas)


El análisis exhaustivo de todas las interacciones gen-gen en estudios pangenómicos (GWAS) con datos de supervivencia no ha sido todavía abordado porque miles de millones de interacciones deben ser estudiadas con técnicas estadísticas diseñadas para tratar con tiempos de supervivencia. El alto coste computacional de este análisis lo hace impracticable.

Proponemos una estrategia novedosa y viable para analizar todos los pares de interacciones de un estudio pangenómico con datos de supervivencia que incluye 1 millón de SNPs. La estrategia consta de varios pasos. En una primera etapa, se hace un cribaje entre todas las interacciones analizándolas con regresión logística y se seleccionan aquellas con P-valores < 1E-4. Este análisis se realiza con BOOST. En la segunda etapa, las interacciones seleccionadas en la etapa de cribaje son analizadas con regresión de Cox, la técnica más extendida para analizar datos de supervivencia.

Aplicamos esta estrategia a los datos procedentes del Estudio Español de Cáncer de Vejiga/EPICURO, en el que se analizaron 4 sucesos de interés clínico: predicción de recurrencia y progresión tumoral en 836 casos de cáncer de vejiga con tumores no-invasivos, y predicción de progresión y muerte en 235 casos con tumores invasivos. Seleccionamos para el análisis 585.000 polimorfismos, después de haber aplicado filtros de control de calidad y de haber descartado polimorfismos en desequilibrio de ligamiento. Se analizaron los 171.000 millones de interacciones gen-gen y se identificaron varias interacciones con P-valores < 1E-10 en cada uno de los 4 análisis propuestos.

En esta presentación mostramos cómo organizamos en el entorno R toda la información referente a este proceso, cómo gestionamos esa información, y cómo realizamos los distintos análisis estadísticos requeridos. R es una herramienta adecuada para tratar problemas de esta complejidad. En primer lugar, R permite realizar el análisis estadístico de los datos de supervivencia (regresión de Cox, curvas KM, …) y salvar los resultados obtenidos, lo cual nos permitió estructurar adecuadamente el proceso en varios pasos. Además, R admite el manejo de miles de variables implicadas en el análisis y es muy flexible para crear scripts que pueden ser utilizados para analizar simultáneamente los 4 sucesos clínicos de interés.


organizacion@usar.org.es