Cargando...
 
Imprimir

Concursos V Jornadas

V Jornadas de Usuarios de R

Centro de Arte y Tecnología, Zaragoza
12 y 13 de Diciembre de 2013


Premio Synergic Partners - II Concurso de Análisis de Datos con R


Synergic Partners es una consultora tecnológica estratégica especializada en Data Management, Data Governance, Data Analytics y Big Data, con el objetivo de convertir los datos de las empresas en un activo estratégico para su negocio. Patrocina el II Concurso de Análisis de datos con R que se basa en la implementación del algoritmo Support Vector Machines mediante MapReduce. Premio de 500 euros.

Uno de los desafíos a los que se enfrenta actualmente R es la adaptación de los principales algoritmos de análisis y machine learning a entornos de Big Data, concretamente al entorno Hadoop. Mediante la librería Rhdfs, R puede leer y escribir ficheros almacenados en un disco de Hadoop. Mediante la librería Rmr2, puede utilizar un cluster de Hadoop para realizar procesos MapReduce. Si no se tiene acceso a un cluster con Hadoop, puede experimentarse con Rmr2 en modo local (ver nota al final). Nuestro desafío es por lo tanto implementar un algoritmo en R usando el paquete Rmr2 en forma de proceso MapReduce.

El algoritmo que hemos elegido es Support Vector Machines (SVM). Se trata de un algoritmo de clasificación en 2 grupos. Ejemplos: clientes de valor / poco valor, clientes que van a impagar / no, asegurados que defraudan / lo contrario. El algoritmo es capaz de aprender de una muestra (por ejemplo, datos históricos) y asignar categorías a nuevos clientes (o, en general, clasificar en dos grupos). Tiene la ventaja de tener una base matemática muy sólida, ser bueno de analizar y poco sensible frente a muchas dimensiones (muchas variables origen). Por esto es uno de los algoritmos que siempre se considera en problemas de clasificación/predicción de dos categorías. A menudo es el que mejor se comporta. Forma parte de la "caja de herramientas" básica de cualquier programa de data mining.

Nuestro planteamiento es práctico, el objetivo es alcanzar en el menor tiempo posible una solución Hadoop que soporte SVMs para utilizarla en problemas reales de clasificación. Para esto estamos dispuestos a aceptar ciertos compromisos, especialmente para la fase de aprendizaje (training). Realizaremos el aprendizaje utilizando un paquete estándar (preferiblemente kernlab o e1071) sobre un conjunto que no es "big data", sino una muestra aleatoria de tamaño aceptable para ser realizada localmente en un único nodo.

Las razones de esta decisión son, por una parte, que SVM ha sido extendido con muchos métodos útiles (métodos de búsqueda y kernels) que sería demasiado trabajoso implementar y, por otra parte, el proceso MapReduce es demasiado lento para ser ejecutado el número de veces que puede ser necesario para que converja el algoritmo, probar diferentes opciones, etc.

Por lo tanto, nuestro desafío requiere únicamente implementar un proceso MapReduce para clasificar sobre un conjunto Big Data (más de 100 millones de casos) usando el modelo aprendido sobre una muestra aleatoria (unos 10 a 50 mil casos) y computado mediante un paquete R que incluya SVM.

Se requiere:

  1. Obtener un modelo SVM utilizando un paquete existente de R. Se recomienda utilizar e1071 o kernlab, pero se puede utilizar otra implementación siempre que sea de calidad contrastada y contenga soporte para al menos 4 kernels básicos (lineal, polinómico, radial y sigmoidal). Con dicho modelo se clasificará el conjunto Test2K para que la solución sea evaluada por Synergic Partners.
  2. Implementar como tarea MapReduce la clasificación aplicando el modelo calculado en el apartado anterior sobre el conjunto de 2000 casos (solamente como solución de desarrollo). Los resultados deben lógicamente coincidir con los obtenidos en el apartado 1. La implementación debe ser capaz de clasificar de manera distribuida usando MapReduce un conjunto 'big data' análogo de 100 millones de casos. Una vez completada la implementación y verificada ésta sobre el conjunto de test, Synergic Partners entregará un programa R que permite generar (en chunks de tamaño apropiado) los 100 millones de casos. El programa debe ser capaz de clasificar 100 millones o más de casos escribiendo los resultados a un fichero hdfs con un formato apropiado para su importación en Hive. (Idealmente directamente como una tabla Hive, pero eso no es imprescindible.)
  3. El autor deberá entregar el código fuente bajo una licencia abierta que permita su uso comercial (Berkeley, Apache o similar).

Nota: Cómo activar el modo local de Rmr2. Si no se dispone de un cluster Hadoop, se puede hacer que Rmr2 funcione en modo local en lugar de comunicar con un cluster de Hadoop para hacer pruebas. En la configuración rmr.options() hay que cambiar backend = "hadoop" por backend = "local". No se penalizarán soluciones que no hayan podido ser probadas sobre un cluster.

500€ en premios. El ganador obtendrá un cheque por importe de 500 euros. El concurso se podrá declarar desierto si el jurado considera una escasa calidad o interés en los trabajos presentados.

Hasta el 20 de Noviembre El plazo finaliza el 20 de noviembre de 2013. Todo el material, código, metodología, etc. s

Selección de finalistas Los trabajos presentados serán juzgados en base a los siguientes criterios:

  • Que el autor proponga soluciones para combinar modelos aprendidos sobre varias muestras distintas del mismo conjunto 'big data'.
  • La velocidad de la clasificación y la posibilidad de generalizarlo a más de 2 categorías. La clasificación puede utilizar dentro de las funciones map() los clasificadores incluidos en los paquetes de SVM. Ambas implementaciones sugeridas soportan esta generalización. La implementación de kernlab es algo más rápida que e1071 y tiene más opciones.

Descripción de los datos. Los datos pueden descargarse de este enlace:

  • Training50K.csv (separado por tabuladores) tiene 8 variables predictoras continuas (x1..x8), 7 variables predictoras categóricas (xc1..xc7) y 3 variables predichas si/no (y1..y3) por orden de complejidad del modelo. La variable y1 puede predecirse con relativamente pocos casos (unos 2000) y un kernel lineal, las otras dos requieren un ajuste más avanzado y posiblemente más casos y CPU. (Se pueden obtener resultados satisfactorios para todas ellas con los 50K casos entregados.)
  • Test2K.csv Contiene 2000 casos de test con idénticas variables x1..x8 y xc1..xc7 para evaluar el modelo obtenido sobre un fichero pequeño pero suficiente para juzgar la calidad del mismo.

Participación e información adicional. Para participar en la competición y enviar soluciones o preguntas, se puede contactar con los organizadores a través de la dirección de correo electrónico 5j-co@r-es.org y con Santiago Basaldúa.

Los autores cuyos trabajos se ajusten a los criterios mencionados serán convocados a presentar y defender públicamente su trabajo durante la celebración de las V Jornadas de Usuarios de R, 12 y 13 de diciembre en Zaragoza. La participación en este concurso implica la aceptación de las presentas reglas.Su incumplimiento conlleva la expulsión del presente concurso.La decisión del Jurado será inapelable. Los participantes expresamente renuncian a recurrir a otras instancias en contra de la decisión del jurado y de los patrocinadores.

Jurado. Miembros de Synergic Partners y del comité científico de las V Jornadas de Usuarios de R.

Premio Telefónica Digital a la mejor aplicación R en big data


Telefónica Digital la división de innovación y desarrollo de productos dentro de Telefónica Digital, y con ocasión de las V Jornadas R-Hispano, ha decidido patrocinar el I Premio Telefónica Digital a la mejor aplicación BigData con R en el ámbito empresarial. Bases provisionales:

  • Podrán participar en la convocatoria del premio todos los trabajos presentados en las V Jornadas de Usuarios de R que versen sobre *aplicaciones de big data en el ámbito empresarial*.
  • Los autores deberán estar inscritos en las V Jornadas de Usuarios de R y presentar oralmente durante las V Jornadas.
  • Los trabajos que se presenten al premio, con una extensión de a lo sumo 20 páginas, redactados indistintamente en castellano o inglés, versarán sobre alguna materia relacionada con R (pueden ser investigaciones, aplicaciones, visualizaciones, bitácoras, etc.).
  • Los autores que deseen participar en la convocatoria y reúnan las condiciones anteriores deberán enviar por correo electrónico al Comité Organizador (5j-co@r-es.org) la siguiente documentación: una carta de presentación de su candidatura al premio con una descripción precisa de la aplicabilidad empresarial, una breve reseña biográfica (máximo 250 palabras), un resumen del trabajo en castellano (máximo 500 palabras), y una copia del trabajo.
  • La fecha límite para la recepción de trabajos es el 20 de Noviembre de 2013. No se admitirán candidaturas recibidas con posterioridad a dicha fecha.
  • Con anterioridad al inicio del congreso, se publicará el título y el autor de todos los trabajos seleccionados, junto con un resumen y breve currículum vitae del equipo investigador.
  • El Jurado estará compuesto por miembros de Teléfonica Digital y del Comité Científico de las V Jornadas de R. Se valorará el rigor científico, originalidad e importancia del tema tratado, la claridad expositiva y la función didáctica para una audiencia no experta.
  • El trabajo ganador recibirá un diploma acreditativo y un premio de 250 euros.

Premio al mejor investigador joven


La Comunidad R Hispano desea propiciar el desarrollo de jóvenes talentos en el área de análisis de datos. Por ello organiza un concurso destinado a demostrar sus habilidades con R con las siguientes bases:

  • Podrán participar en la convocatoria del premio todos los autore nacidos después del 1 de enero de 1983.
  • Los autores deberán estar inscritos en las V Jornadas de Usuarios de R.
  • Los trabajos que se presenten al premio, con una extensión de a lo sumo 20 páginas, redactados indistintamente en castellano o inglés, versarán sobre alguna materia relacionada con R (pueden ser investigaciones, aplicaciones, visualizaciones, bitácoras, etc.).
  • Dichos trabajos no pueden estar firmados por varios autores.
  • El candidato debe defender oralmente el trabajo en las V Jornadas de Usuarios de R
  • Los autores que deseen participar en la convocatoria y reúnan las condiciones anteriores deberán enviar por correo electrónico al Comité Organizador (5j-co@r-es.org) la siguientedocumentación: una carta de presentación de su candidatura al premio, curriculum vitae abreviado, una breve reseña biográfica (máximo 250 palabras), un resumen del trabajo en castellano (máximo 500 palabras), y una copia del trabajo.
  • La fecha límite para la recepción de trabajos es el 20 de Noviembre de 2013. No se admitirán candidaturas recibidas con posterioridad a dicha fecha.
  • Con anterioridad al inicio del congreso, se publicará el título y el autor de todos los trabajos seleccionados, junto con un resumen y breve currículum vitae del candidato.
  • El Jurado estará compuesto por el Comité Científico de las V Jornadas de R. Se valorará el rigor científico, originalidad e importancia del tema tratado, la claridad expositiva y la función didáctica para una audiencia no experta.
  • El ganador recibirá un diploma acreditativo así como diversos artículos promocionales ofrecidos por los patrocinadores. En breve se detallará el premio.



Contribuyentes a esta página: Emilio , Carlos J. Gil Bellosta y system .
Última modificación de la página el Jueves 19 de Septiembre, 2013 15:25:53 CEST por Emilio.

Archivo

Ofertas de Trabajo
Image Añade

Cursos
Image Añade

Noticias
Image Añade

Patrocinadores

Image