Proponemos una estrategia novedosa y viable para analizar todos los pares de interacciones de un estudio pangenómico con datos de supervivencia que incluye 1 millón de SNPs. La estrategia consta de varios pasos. En una primera etapa, se hace un cribaje entre todas las interacciones analizándolas con regresión logística y se seleccionan aquellas con P-valores < 1E-4. Este análisis se realiza con BOOST. En la segunda etapa, las interacciones seleccionadas en la etapa de cribaje son analizadas con regresión de Cox, la técnica más extendida para analizar datos de supervivencia.
Aplicamos esta estrategia a los datos procedentes del Estudio Español de Cáncer de Vejiga/EPICURO, en el que se analizaron 4 sucesos de interés clínico: predicción de recurrencia y progresión tumoral en 836 casos de cáncer de vejiga con tumores no-invasivos, y predicción de progresión y muerte en 235 casos con tumores invasivos. Seleccionamos para el análisis 585.000 polimorfismos, después de haber aplicado filtros de control de calidad y de haber descartado polimorfismos en desequilibrio de ligamiento. Se analizaron los 171.000 millones de interacciones gen-gen y se identificaron varias interacciones con P-valores < 1E-10 en cada uno de los 4 análisis propuestos.
En esta presentación mostramos cómo organizamos en el entorno R toda la información referente a este proceso, cómo gestionamos esa información, y cómo realizamos los distintos análisis estadísticos requeridos. R es una herramienta adecuada para tratar problemas de esta complejidad. En primer lugar, R permite realizar el análisis estadístico de los datos de supervivencia (regresión de Cox, curvas KM, â¦) y salvar los resultados obtenidos, lo cual nos permitió estructurar adecuadamente el proceso en varios pasos. Además, R admite el manejo de miles de variables implicadas en el análisis y es muy flexible para crear scripts que pueden ser utilizados para analizar simultáneamente los 4 sucesos clínicos de interés.