En este contexto, recientemente hemos propuesto una nueva aproximación para la selección de variables a partir del uso del Random Forest y las curvas ROC (Calle et al. 2011).
Una curva ROC es una representación gráfica de la proporción de verdaderos positivos versus la proporción de falsos positivos a partir de la predicción que proporciona un determinado método de clasificación. Una de las características más importantes de las curvas ROC es que permiten obtener una medida de la capacidad predictiva del método mediante el cálculo del área bajo la curva.
La estrategia que presentamos, y que hemos implementado en la librería AUCRF en R, se basa en la optimización del área bajo la curva ROC (AUC) del Random Forest. Partiendo de un ranking inicial de variables y mediante un proceso de eliminación, seleccionamos el conjunto de variables que proporciona un mayor AUC. Se trata de un proceso de selección de variables inspirado en el método propuesto por Diaz-Uriarte y Andrés (2006, librería varSelRF). La diferencia principal es que el algoritmo varSelRF selecciona el conjunto de variables con menor error de clasificación. La ventaja de usar el AUC en lugar del error de clasificación como medida de predicción del Random Forest queda especialmente de manifiesto cuando se analizan conjuntos de datos no balanceados. La librería AUCRF proporciona además para cada variable seleccionada una medida de la robustez de dicha selección.