MapReduce
Es el paradigma
de programación que permite una
escalabilidad masiva a traves de cientos
y miles de servidores a traves de un clúster de un software que te permite
procesar grandes cantidades de datos a traves de los clústers de servidores de
comodidad, los cuales pueden escalar desde un simple servidor hasta miles de máquinas,
con un alto grado de tolerancia a errores. En lugar de depender en hardware, la
fortaleza de estos clúster viene de la habilidad del software para detectar y
encargase de errores en la capa de aplicación.
El concepto
de MapReduce es algo simple de entender para aquellos familiarizados con el
procesamiento de soluciones sacadas por medio de un escalado de datos a partir
de clusters.
Para la
gente nueva en este tema puede ser algo difícil entenderlo, ya que no es algo típico a lo que la gente ha sido
expuesta con prioridad.
El termino MapReduce actualmente se refiere a
dos separadas y distintas tareas que
algunos programas son capaces de hacer. El primer trabajo es el mapeo, el cual
toma un grupo de datos y los convierte en otro tipo de datos, donde los elementos
individuales son partidos en “tuples”. Como consecuencia el nombre MapReduce
implica, el trabajo de reducir siempre es realizado después del trabajo de
mapeo.
Un ejemplo de MapReduce
Asume que tienes 5 archivos, en cada archivo se
tienen dos columnas que representan una ciudad y su respectiva temperatura
capturada por varios días, no importa el tamaño de los datos que se necesitan analizar, los principios son los mismos.
Toronto, 20
Whitby, 25
New York, 22
Rome, 32
Toronto, 4
Rome, 33
New York, 18
Necesitamos encontrar la máxima temperatura de
cada ciudad a través de todos los archivos de datos. Usando la herramienta de
trabajo MapReduce,podemos romper con la tarea de mapeado, donde cada mapeador
trabajo con uno de los cinco archivos y la tarea del mapeador va desde los
datos y regresa el valor máximo de la temperatura de cada ciudad.
El resultado seria (Toronto, 20) (Whitby, 25) (New York, 22)
(Rome, 33)
No hay comentarios:
Publicar un comentario