useR

Correcciones taxonómicas de grandes bases de datos de forma automatizada


Luis Cayuela,Universidad Rey Juan Carlos


En el siglo XXI, el uso de las nuevas tecnologías está permitiendo la compilación de una gran cantidad de información biológica que antes no se encontraba disponible. Un claro ejemplo de ello son iniciativas como la Global Biodiversity Information Facility (GBIF) o el proyecto RAINFOR (Mali et al. 2002). Estas bases de datos abren las puertas a nuevos estudios que antes no podían ser abordados por limitaciones de tiempo y de recursos. La compilación de información biológica procedente de distintas fuentes tiene, sin embargo, el inconveniente de que los datos necesitan ser estandarizados de acuerdo a unos mismos criterios taxonómicos. Este paso puede suponer una gran inversión de tiempo antes de poder disponer de la información para su análisis. Actualmente existen distintos recursos electrónicos en la red, como Species 2000 (http://www.sp2000.org/) o The Plant List (http://www.theplantlist.org/), con información sobre si un determinado nombre científico es válido o es sinónimo de otro. Mediante el uso de R, se pueden crear procedimientos automatizados para consultar estas bases de datos y estandarizar la taxonomía de grandes bases de datos a un coste muy reducido de tiempo. En este estudio presentamos un protocolo de trabajo para estandarizar la taxonomía de bases de datos de plantas utilizando The Plant List. Ilustramos su uso con la base de datos de árboles tropicales del sur de México y Centroamérica del proyecto BIOTREE-NET (http://www.biotreenet.com). Sobre un total de 3558 nombres, el 17% fueron identificados como errores tipográficos, el 16% como sinónimos, el 65% como nombres aceptados y el 2% como no resueltos. Tanto los errores tipográficos como los sinónimos fueron cambiados de forma automática a su forma correcta o aceptada respectivamente.
organizacion@usar.org.es