O objetivo deste artigo é mostrar os resultados testando a integração de uma plataforma Big Data com outras ferramentas geoespaciais. É necessário salientar que a integração de componentes usados, todos eles de código aberto, nos permite publicar serviços WEB compatíveis com padrões OGC (WMS, WFS, WPS).
Este artigo descreve as etapas de instalação, as configurações e o desenvolvimento feito para obter um aplicativo de mapeamento que mostre medidas de NO2 de aproximadamente 4k estações européias durante quatro meses (Observações foram registradas por hora), resultado em torno de 5 milhões de registros. Sim, eu sei, esses dados não parecem um armazenamento “Big Data”, mas parece grande o suficiente para verificar o desempenho quando as aplicações o lêem usando filtros espaciais e / ou temporais (clique na imagem acima para ver o vídeo).
O artigo não se concentra em ensinar um conhecimento mais profundo dos softwares usados, todos eles já tem publicado boa documentação do ponto de vista do usuário ou do desenvolvedor, simplesmente quero oferecer experiências e um guia simples para coletar recursos de componentes de software. Por exemplo, comentários sobre o GeoWave e sua integração com o GeoServer são uma cópia do conteúdo do guia do produto em seu site.
1. Esquema de dados
Os dados de teste foram baixados da European Environment Agency (EEA). Você pode pesquisar aqui informações ou visualizadores de mapas desta ou de outras fontes, ou melhor, você pode usar seus próprios dados. GDELT é outro projeto interessante que oferece dados maciços.
O esquema dos dados do teste é simples, a entrada é um grupo de arquivos CSV (arquivos de texto com seus atributos separados com vírgulas) com coordenadas geográficas do tipo ponto (Latitude / Longitude) que georreferenciam o sensor, a data da medida e a concentração de NO2 no ar. Existem outros atributos secundários, mas não são importantes para o nosso teste.
2. Arquitetura de software
O teste consiste na cadeia de um conjunto de ferramentas, todos eles oferecem dados e funcionalidade ao próximo componente de software na arquitetura do aplicativo. O fluxo de trabalho do aplicativo começa com o Hadoop e seu HDFS, HBase para mapeá-lo como um banco de dados, o ótimo GeoWave trabalhando como um conector entre ele e o popular GeoServer que implementa vários padrões OGC e, finalmente, um aplicativo de cliente web que busca dados para mostrar mapas como usual (por exemplo, usando Leaflet e Heatmap.js biblioteca).
No próximo post iremos falar detalhadamente de cada um dos softwares apresentados na imagem acima! Não Perca!