CLOUDERA: UMA ABORDAGEM PARA ANÁLISE DE LOGS DO PROXY SQUID-CACHE USANDO HADOOP, FLUME, MAPREDUCE E IMPALA
Resumen
Nosso objetivo é demonstrar uma abordagem no contexto do Big Data a qual permita a coleta, armazenagem persistente, tratamento e geração de resultados para análises dos dados mediante o uso das ferramentas disponíveis na plataforma Cloudera. Os dados utilizados são os registros de log gerados em tempo real pelo servidor proxy Squid-cache como resultado dos acessos à Internet feitos a partir da rede local. Usando o Apache Hadoop para o armazenamento de massa e processamento MapReduce quando necessário, conversão dos dados armazenados no HDFS para tabelas Impala para criação de rotinas de manipulação dos dados usando a linguagem SQL, e o Apache Flume para coleta de transmissão dos dados entre a fonte e o Apache Hadoop.