useR

SISAL: Algoritmo de selección secuencial de variables implementado en R


Andres Sanz Garcia (Universidad de La Rioja)
Ana Gonzalez Marcos (Universidad de La Rioja)
Julio Fernandez Ceniceros (Universidad de La Rioja)
Fernando Antoñanzas Torres (Aries Ingeniería y Sistemas, S.A.)


Uno de los principales problemas que se plantean en la Minería de Datos es la selección de variables, especialmente durante la generación de modelos de predicción. Si el número de variables es muy elevado no es factible una estrategia de fuerza bruta para seleccionar las más importantes, existiendo en ese caso tres principales alternativas: el enfoque como un filtro, como wrapper y por último como embedded. La diferencia entre ellas reside en la forma en la que el método de selección se integra en el modelo de predicción. En este trabajo se presenta la implementación en R del algoritmo SISAL (Sequential Input Selection ALgorithm) para elegir un conjunto parsimonio de variables de entrada. El algoritmo utiliza un enfoque como filtro donde primero selecciona un conjunto disperso de entradas mediante sucesivos modelos lineales, para después utilizar dichas entradas en el entrenamiento de un sistema de predicción tanto de tipo lineal como no lineal.
organizacion@usar.org.es