VERNE ACADEMY > BLOG > ARTíCULOS SOBRE DATA > ¿QUé ES MAPREDUCE Y CóMO FUNCIONA?

¿Qué es MapReduce y cómo funciona?

¿Qué es MapReduce y para qué sirve?

Continuamos con conceptos básicos acerca de Hadoop, explicando en este post, MapReduce ¿Qué es y cómo funciona?

MapReduce es un framework que proporciona un sistema de procesamiento de datos paralelo y distribuido. Su nombre se debe a las funciones principales que son Map y Reduce, las cuales explicaremos a continuación. MapReduce está pensado para la solución práctica de algunos problemas que pueden ser paralelizados, pero se ha de tener en cuenta que no todos los problemas pueden resolverse eficientemente con MapReduce. MapReduce está orientado a resolver problemas con conjuntos de datos de gran tamaño, por lo que utiliza el sistema de archivos distribuido HDFS.

El Framework MapReduce tiene una arquitectura maestro / esclavo. Cuenta con un servidor maestro o JobTracker y varios servidores esclavos o TaskTrackers, uno por cada nodo del clúster.

El JobTracker es el punto de interacción entre los usuarios y el framework MapReduce. Los usuarios envían trabajos MapReduce al JobTracker, que los pone en una cola de trabajos pendientes y los ejecuta en el orden de llegada. El JobTracker gestiona la asignación de tareas y delega las tareas a los TaskTrackers. Los TaskTrackers ejecutan tareas bajo la orden del JobTracker y también manejan el movimiento de datos entre la fase Map y Reduce.

Para ver las diferencias entre JobTracker y TaskTracker vamos a ver las características de cada uno.

Cursos de Data, Analítica de Datos e IA

Conoce nuestra oferta formativa en datos, analítica e IA 100% online, impartida por profesionales certificados y para todos los niveles, con convocatorias públicas y con opciones de formación privadas y adaptadas a las necesidades de las empresas.

QUIERO SABER MÁS

Best seller

JobTracker: Servidor maestro de MapReduce

Capacidad para manejar metadatos de trabajos
- Estado de la petición del trabajo
- Estado de las tareas que se ejecutan en TaskTracker
Decide sobre la programación
Hay exactamente un JobTracker por cluster.
Recibe peticiones de tareas enviadas por el cliente.
Programa y monitoriza los trabajos MapReduce con TaskTrackers.

TaskTracker: Servidor esclavo de MapReduce

Ejecuta las solicitudes de trabajo de JobTrackers
Obtiene el código que se ejecutará
Aplica la configuración especifica del trabajo
Comunicación con el JobTracker:
- Envíos de la salida, finalizar tareas, actualización de tareas, etc.

En la Figura 1, vemos los componentes principales del Framework, donde se aprecia que las funciones de map son ejecutadas por los TaskTrackers mientras que las funciones de Reduce es ejecutada por el JobTracker.

Figura 1: Framework MapReduce

Map

La función Map recibe como parámetros un par de (clave, valor) y devuelve una lista de pares. Esta función se encarga del mapeo y se aplica a cada elemento de la entrada de datos, por lo que se obtendrá una lista de pares por cada llamada a la función Map. Después se agrupan todos los pares con la misma clave de todas las listas, creando un grupo por cada una de las diferentes claves generadas. No hay requisito de que el tipo de datos para la entrada coincida con la salida y no es necesario que las claves de salida sean únicas.

Map (clave1, valor1) –> lista (clave2, valor2)

La operación de Map se paraleliza, el conjunto de archivos de entrada se divide en varias tareas llamado FileSplit, ver Figura 2, el tamaño típico de bloque es de 128MB. Las tareas se distribuyen a los nodos TaskTrackers, y estos a su vez pueden realizar la misma tarea si hiciera falta.

Reduce

La función Reduce se aplica en paralelo para cada grupo creado por la función Map().La función Reduce se llama una vez para cada clave única de la salida de la función Map. Junto con esta clave, se pasa una lista de todos los valores asociados con la clave para que pueda realizar alguna fusión para producir un conjunto más pequeño de los valores.

Reduce (clave2, lista(valor2)) –> lista(valor2)

En la Figura 3 podemos ver que forma gráfica como funcionaría el proceso global de MapReduce.

Cuando se inicia la tarea reduce, la entrada se encuentra dispersa en varios archivos a través de los nodos en las tareas de Map. Los datos obtenidos de la fase Map se ordenan para que los pares clave-valor sean contiguos (fase de ordenación, sort fase), esto hace que la operación Reduce se simplifique ya que el archivo se lee secuencialmente. Si se ejecuta el modo distribuido estos necesitan ser primero copiados al filesystem local en la fase de copia. Una vez que todos los datos están disponibles a nivel local se adjuntan a una fase de adición, el archivo se fusiona (merge) de forma ordenado. Al final, la salida consistirá en un archivo de salida por tarea reduce ejecutada.

Por lo tanto, N archivos de entrada generará M mapas de tareas para ser ejecutados y cada mapa de tareas generará tantos archivos de salida como tareas Reduce hayan configuradas en el sistema.

Equipo Verne Academy

Deja una respuesta

Lo siento, debes estar conectado para publicar un comentario.

Artículos Recomendados

Missing indexes y el orden de las columnas clave en SQL Server

Artículos sobre Data

Eso no estaba en mi libro de SQL Server – Missing indexes (I)

¡Descubre las recomendaciones de Missing Indexes en SQL Server! En este artículo revisamos los criterios de ordenación de las columnas en los índices sugeridos y se indican estrategias de evaluación de los mismos.

8 de febrero de 2024 No hay comentarios

Artículos sobre Data

Similitudes y diferencias entre SQL y Power Query: dos primos no tan lejanos

Descubre las diferencias y puntos en común entre SQL y Power Query y entiende cómo funcionan ambas para decidir en qué momento usar una u otra.

31 de enero de 2024 No hay comentarios

5 diferencias principales entre Microsoft Fabric y Databricks

Artículos sobre Data

Microsoft Fabric y Databricks: conoce las 5 diferencias principales

Descubre las 5 diferencias principales entre Microsoft Fabric y Databricks y conoce el valor que aporta cada uno de estos productos analíticos.

20 de diciembre de 2023 No hay comentarios

Blog Power BI

Microsoft Fabric vs Power BI: ¿en qué se diferencian?

Descubre las diferencias entre Microsoft Fabric y Power BI, conociendo sus capacidades y para qué debes usar cada una de ellas.

20 de diciembre de 2023 No hay comentarios

Artículos sobre Data

Otra razón más para migrar a SQL Server 2022

Descubre la mejora de rendimiento en escenarios de contención de las estructuras GAM y SGAM de SQL Server 2022. Esta sería otra razón más por la que migrar a la versión de 2022.

5 de diciembre de 2023 No hay comentarios

Blog Academy

Qué es Microsoft Fabric en 1 minuto

Descubre qué es Microsoft Fabric, la nueva solución de analítica de datos que ha cambiado las reglas del juego. ¿Sabes por qué?

8 de noviembre de 2023 No hay comentarios

¿Buscas formación para

ti o para tu empresa?

Desarrolla tu talento o el de tu equipo con formaciones prácticas impartidas por expertos de la industria. Tú eliges la modalidad: formación privada, clases públicas online en directo o cursos on-demand (formación en video). Durante los cursos trabajamos sobre casos reales y soluciones aplicadas en proyectos, basadas en nuestros años de experiencia. ¿Hablamos? 😉