Hadoop

Hadoop é um ecossistema para computação distribuida, ou seja, criado para comportar o processamento de grandes quantidades de dados (petabytes) com alta velocidade. Esse ecossistema é composto de vários sistemas/tecnologias.

A idéia do Hadoop é realizar um processamento pesado dividindo a tarefa em vários nós (cluster), de forma a aumentar o poder computacional. Para isso acontecer, é utilizado um sistema de arquivos nos nós de cada cluster chamado de HDFS(Hadoop distributed file system), que comporta arquivos com grandes quantidades de dados e o processamento é realizado utilizando uma técnica de programação chamada MapReduce.

A seguir um exemplo de sistemas que podem fazer parte desse ecosistema e uma breve explicação sobre cada um. inserir a descrição da imagem aqui

HDFS -Sistema de arquivos do Hadoop, este sistema de arquivos trabalha de forma distribuída, utilizando grandes blocos de memória.

Map Reduce -Modelo de programação para processamento em larga escala. Tendo como fundamentos o mapeamento (map) e a redução (reduce).
Tutorial

Yarn -Trata-se de uma plataforma de gerenciamento de recursos responsável pelo gerenciamento dos recursos computacionais em cluster, assim como pelo agendamento dos recursos.

Hive – Converte queries SQL em MapReduces.

Pig -Linguagem para criação de MapReduces

Hbase -Um banco da dados NoSQL orientado a colunas (colunar), que pode ser usado sobre o HDFS. Provê acesso a grandes quantidades de dados com alta velocidade.
– O que é o Apache HBase?

Flume -Sistema de exportação de logs, contendo grande quantidade de dados para o HDFS

Ambari – Monitoramento de clusters Hadoop

Sqoop -Ferramenta de exportação de dados de SGBDS para o Hadoop. Usa JDBC, gera uma classe Java de exportação de dados para cada tabela no esquema relacional

Oozie / Control-M – Agendador/gerenciador de tarefas e Workflows para hadoop.

Fonte: StackOverFlow

 

Anúncios