Correcciones taxonómicas de grandes bases de datos de forma automatizada
Luis Cayuela,Universidad Rey Juan Carlos
En el siglo XXI, el uso de las nuevas tecnologías está permitiendo la
compilación de una gran cantidad de información biológica que antes no
se encontraba disponible. Un claro ejemplo de ello son iniciativas
como la Global Biodiversity Information Facility (GBIF) o el proyecto
RAINFOR (Mali et al. 2002). Estas bases de datos abren las puertas a
nuevos estudios que antes no podían ser abordados por limitaciones de
tiempo y de recursos. La compilación de información biológica
procedente de distintas fuentes tiene, sin embargo, el inconveniente
de que los datos necesitan ser estandarizados de acuerdo a unos mismos
criterios taxonómicos. Este paso puede suponer una gran inversión de
tiempo antes de poder disponer de la información para su
análisis. Actualmente existen distintos recursos electrónicos en la
red, como Species 2000 (http://www.sp2000.org/) o The Plant List
(http://www.theplantlist.org/), con información sobre si un
determinado nombre científico es válido o es sinónimo de
otro. Mediante el uso de R, se pueden crear procedimientos
automatizados para consultar estas bases de datos y estandarizar la
taxonomía de grandes bases de datos a un coste muy reducido de
tiempo. En este estudio presentamos un protocolo de trabajo para
estandarizar la taxonomía de bases de datos de plantas utilizando The
Plant List. Ilustramos su uso con la base de datos de árboles
tropicales del sur de México y Centroamérica del proyecto BIOTREE-NET
(http://www.biotreenet.com). Sobre un total de 3558 nombres, el 17% fueron
identificados como errores tipográficos, el 16% como sinónimos, el
65% como nombres aceptados y el 2% como no resueltos. Tanto los
errores tipográficos como los sinónimos fueron cambiados de forma
automática a su forma correcta o aceptada respectivamente.
organizacion@usar.org.es