AUCRF: una librería para la búsqueda de perfiles genéticos

Víctor Urrea Gales y M. Luz Calle
Dept. Biología de Sistemas, Universitat de Vic

Uno de los objetivos principales en el estudio de las enfermedades complejas hereditarias es la identificación de perfiles genéticos de riesgo, es decir, la selección del conjunto de variantes genéticas en el genoma humano que mejor predicen el riesgo individual a desarrollar la enfermedad. Para ello se pueden utilizar distintas técnicas de data-mining entre las que se encuentra el Random Forest, una metodología propuesta por Leo Breiman (2001) que consiste en la agregación de múltiples árboles de clasificación y que proporciona un ranking de las variables en función de su relevancia en el proceso de clasificación. Una de las ventajas más importantes de esta metodología es su capacidad para captar patrones no lineales de susceptibilidad.

En este contexto, recientemente hemos propuesto una nueva aproximación para la selección de variables a partir del uso del Random Forest y las curvas ROC (Calle et al. 2011).

Una curva ROC es una representación gráfica de la proporción de verdaderos positivos versus la proporción de falsos positivos a partir de la predicción que proporciona un determinado método de clasificación. Una de las características más importantes de las curvas ROC es que permiten obtener una medida de la capacidad predictiva del método mediante el cálculo del área bajo la curva.

La estrategia que presentamos, y que hemos implementado en la librería AUCRF en R, se basa en la optimización del área bajo la curva ROC (AUC) del Random Forest. Partiendo de un ranking inicial de variables y mediante un proceso de eliminación, seleccionamos el conjunto de variables que proporciona un mayor AUC. Se trata de un proceso de selección de variables inspirado en el método propuesto por Diaz-Uriarte y Andrés (2006, librería varSelRF). La diferencia principal es que el algoritmo varSelRF selecciona el conjunto de variables con menor error de clasificación. La ventaja de usar el AUC en lugar del error de clasificación como medida de predicción del Random Forest queda especialmente de manifiesto cuando se analizan conjuntos de datos no balanceados. La librería AUCRF proporciona además para cada variable seleccionada una medida de la robustez de dicha selección.

organizacion@usar.org.es