CLOUDERA: UMA ABORDAGEM PARA ANÁLISE DE LOGS DO PROXY SQUID-CACHE USANDO HADOOP, FLUME, MAPREDUCE E IMPALA

  • Volnei Cervi PUTTINI/Juliano SCHIMIGUEL
Palavras-chave: Big Data;, Apache Hadoop, Apache Flume, Cloudera, Log

Resumo

Nosso objetivo é demonstrar uma abordagem no contexto do Big Data a qual permita a coleta, armazenagem persistente, tratamento e geração de resultados para análises dos dados mediante o uso das ferramentas disponíveis na plataforma Cloudera. Os dados utilizados são os registros de log gerados em tempo real pelo servidor proxy Squid-cache como resultado dos acessos à Internet feitos a partir da rede local. Usando o Apache Hadoop para o armazenamento de massa e processamento MapReduce quando necessário, conversão dos dados armazenados no HDFS para tabelas Impala para criação de rotinas de manipulação dos dados usando a linguagem SQL, e o Apache Flume para coleta de transmissão dos dados entre a fonte e o Apache Hadoop.

Biografia do Autor

Volnei Cervi PUTTINI/Juliano SCHIMIGUEL

Volnei Cervi PUTTINI
vcputtini@gmail.com, Pós-Graduação Lato Sensu em BI em Bigdata, UniAnchieta


Juliano SCHIMIGUEL
Professor do Centro Universitário Padre Anchieta, Jundiaí/SP, schimiguel@gmail.com

Seção
Artigos