Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.997
Aluno: Mateus Nunes de Barros Magalhães
Orientador: Prof. Robson do Nascimento Fidalgo
Título: Uma Avaliação da Redundância e do Particionamento de Dados
Convencionais e Geoespaciais em Data Warehouses Orientados a Colunas
Data: 24/02/2022
Hora/Local: 14h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
Prof. Andreza Leite de Alencar (UFRPE / Departamento de Computação – DC UFRPE)
Prof. Robson do Nascimento Fidalgo (UFPE / Centro de Informática)
RESUMO:
A crescente demanda por processamento analítico alinhada a expansão dos ambientes de Big Data colocou em xeque a capacidade do modelo relacional de atender tais aplicações, sem comprometer o desempenho das mesmas ou incorrer em custos exorbitantes. Os bancos de dados NoSQL foram escolhidos como uma alternativa viável para suprir tais necessidades. Eles relaxam os controles de consistência, integridade e transacionais característicos de bancos relacionais para oferecerem mais disponibilidade, poder de processamento paralelo e escalabilidade horizontal. Estudos mostraram que a classe de bancos de dados NoSQL orientados a colunas apresentam bons desempenhos para o uso com finalidades analíticas, pois, os dados de cada coluna são armazenados contiguamente e separados fisicamente das demais colunas. O planejamento de esquemas para os bancos de dados orientados a colunas foi objeto de diversas pesquisas, as quais, avaliaram abordagens normalizadas e desnormalizadas, bem como, as formas mais adequadas de se promover a separação física dos dados de cada coluna. No entanto, esses estudos não consideraram cenários que envolvam dados geoespaciais presentes na base e no escopo das consultas analíticas. Com o intuito de investigar as influências da redundância e do particionamento de dados convencionais e geoespaciais em GDWs orientados a colunas e utilizados com finalidades analíticas, propusemos 40 esquemas que adotam abordagens distintas para modelar os relacionamentos entre fatos e dimensões, entre dimensões convencionais e geoespaciais, e entre as próprias dimensões geoespaciais. Utilizamos o benchmark denominado Spadawan para gerar os dados em conformidade com os esquemas propostos, para os fatores de escala 1 e 10, e avaliar o volume de dados, tempo de ingestão e tempo para a execução de uma carga de consultas geoespaciais em um cluster computacional composto por 4 nós. Nossos resultados evidenciaram que a desnormalização das dimensões convencionais foi a abordagem que mais contribuiu positivamente para a redução dos tempos de execução, apesar de elevar o volume de armazenamento demandado. A normalização das dimensões geográficas de menor seletividade contribuiu com a redução dos tempos de execução, enquanto, a normalização ou desnormalização das mais seletivas não ocasionou impactos positivos ou negativos expressivamente.
Palavras-chave: Data-warehouse geográfico, NoSQL, Redundância,
Particionamento, Seletividade
Comentários desativados