Hadoop 2.0 reinventa il suo approccio alla elaborazione del lavoro con filato
Dovrebbe non solo stimolare ulteriormente il modo in cui le applicazioni sono scritte per Hadoop, ma anche consentire la creazione di completamente nuove metodologie di data-scricchiolio all'interno di Hadoop che semplicemente non erano possibili a causa delle sue precedenti limitazioni architettoniche. In breve, è roba buona.Il nuovo Hadoop è altro che il tentativo della Apache Foundation per creare un nuovo quadro generale per tutto il modo in cui i grandi dati possono essere memorizzati, estratti ed elaborati.
Cosa trattenuto Hadoop indietro tutto questo tempo? Più importante, dove sta andando da qui?
Diverse critiche di Hadoop hanno girato circa i suoi limiti di scala, ma il più grande vincolo sulla scala è stata la sua gestione di posti di lavoro. Tutti i posti di lavoro in Hadoop vengono eseguiti come processi batch tramite un singolo demone chiamato JobTracker, che crea un collo di bottiglia di scalabilità e velocità di elaborazione.
Con Hadoop 2, l'approccio JobTracker è stato smantellato. Invece, Hadoop utilizza una nuovissima struttura di lavorazione per conto costruito utilizzando due demoni: GestoreRisorse, che governa tutti i processi nel sistema, e NodeManager, che funziona su ogni nodo Hadoop e mantiene il ResourceManager informato su quello che succede su quel nodo. (Ogni applicazione in esecuzione ha anche un proprio governatore, ApplicationMaster.)
Questa configurazione è così a differenza del precedente MapReduce che Apache ha dato un nome completamente nuovo:
FILATI, o ancora un altro negoziatore risorse , con il nuovo MapReduce in esecuzione come una delle tante possibili componenti per esso. Infatti, Apache sostiene che qualsiasi applicazione distribuita può essere eseguito su FILATO, anche se con un po 'di porting. A tal fine, Apache ha mantenuto
un elenco di applicazioni FILATI-compatibili , come il sociale-grafico di analisi del sistema Apache Giraph (che utilizza Facebook). Più sono sulla strada che da altre parti, anche.
Così radicale come questo approccio è, Apache saggiamente deciso di non rompere la compatibilità all'indietro, in modo MapReduce 2 ha ancora la stessa API come il suo predecessore.Posti di lavoro esistenti solo bisogno di una ricompilazione per funzionare correttamente.
E 'anche certo una coincidenza che FILATO rende Hadoop molto più trasversale compatibile con altri progetti Apache per massaggiare i dati grandi. Utilizzare uno, e diventa molto più facile da utilizzare il resto. Tale marea crescente per Hadoop aiuterebbe ad eliminare tutte le barche legate di Apache.
La vittoria più grande di tutto qui è come MapReduce in se stessa diviene solo un possibile modo per molti di raccogliere dati attraverso Hadoop. Proprio Spark di Apache, un altro candidato per il porting a filo, potrebbe essere più adatto per alcuni tipi di lavoro di MapReduce, così Hadoop 2 offre maggiore flessibilità di scegliere il motore che è la misura migliore.
I due grandi produttori di Hadoop,
Cloudera e
Hortonworks , entrambi hanno le loro discussioni su come filato è roba importante, anche se si avvicinano Hadoop da direzioni nettamente differenti.Impala Cloudera offre la possibilità di eseguire query di bassa latenza SQL contro dati HDFS-memorizzati, che li rende più adatto per vivere analytics; Hortonworks ha scelto di andare con la tecnologia Hive nativo di Apache, che è meglio per le operazioni di data warehouse (come di lunga durata query con un sacco di operazioni di join-tipo).
Porting di applicazioni per FILATO non è uno sforzo banale, però, così il payoff coinvolti nella rielaborazione Hadoop questo radicalmente sarà fortemente basato su quanto viene messo in atto il nuovo quadro. Ma il fatto che sia Cloudera e Hortonworks sono solidamente dietro Hadoop 2 e non hanno sborsato il prodotto - o bloccato con le precedenti iterazioni - è la prova principale Hadoop 2 non è solo fumo o specchi. O filo aggrovigliato.