UCI

Introducción a Big Data con Apache Spark

El surgimiento del Big Data como nueva área del conocimiento brinda la posibilidad de aplicar algoritmos para extraer información útil y comprensible de fuentes de datos heterogéneas, no estructuradas y masivas. El presente curso tiene como fin dotar a los estudiantes de posgrado de las habilidades y conocimientos básicos de esta área de conocimiento, mediante el uso del paradigma de computación de alto rendimiento MapReduce. Para ello, el curso se orienta al uso de la herramienta Apache Spark y el lenguaje de programación Java. Con esto, los estudiantes serán capaces de desplegar Apache Spark en forma local y standalone. Utilizarán colecciones de elementos distribuidas y tolerantes a fallos. Caracterizarán los elementos fundamentales del aprendizaje automático y el proceso de la ciencia de datos. Por último, resolverán problemas computacionales de minería de datos, aplicando cada una de sus etapas, desde el pre-procesamiento hasta la validación.