Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 651
Aluno: Fred Eduardo Revoredo Rabelo Ferreira
Orientador: Prof. Robson do Nascimento Fidalgo
Título: Evaluating the impact of data denormalization on OLAP and HTAP architectures: guidelines for efficient Data Warehouse as a Service design
Data: 12/12/2024
Hora/Local: 08h30m – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Eduardo Antonio Guimarães Tavares (UFPE / Centro de Informática)
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
Prof. Vinicius Cardoso Garcia (UFPE / Centro de Informática)
Prof. Ronaldo dos Santos Mello (UFSC / Departamento de Informática e Estatística)
Prof. Andrêza Leite de Alencar (UFRPE / Departamento de Informática)
RESUMO:
Data Warehouse as a Service (DWaaS) é uma abordagem moderna para Data Warehousing (DW) que utiliza Bancos de Dados (DBMSs) baseados em nuvem para fornecer armazenamento e análise de dados escaláveis e de alto desempenho sem as complexidades do gerenciamento de hardware físico. As soluções DWaaS podem suportar não apenas Online Analytical Processing (OLAP), mas também Hybrid Transactional/Analytical Processing (HTAP). Esses DBMSs podem ser categorizados em duas classes principais: Columnar Relational e NewSQL. Ambas as classes oferecem recursos avançados, como processamento distribuído, armazenamento em colunas e escalabilidade horizontal, que são essenciais para lidar com grandes volumes de dados e consultas complexas de forma eficiente na nuvem. No entanto, tais soluções apresentam diferenças importantes que impactam o volume de dados e o desempenho de consultas (por exemplo, sua arquitetura, método de armazenamento e modelos de dados). O objetivo desta tese é realizar uma avaliação experimental para analisar o impacto da modelagem de dados, especificamente o uso de um Esquema Estrela ou um Esquema de Tabela Flat (totalmente desnormalizado) no contexto de DW distribuído, baseado em nuvem e colunar. Contribuímos para a literatura realizando uma análise do desempenho de vários DBaaS, comparando verticalmente as classes OLAP e HTAP de soluções para compreender melhor seu comportamento em diferentes configurações em termos de esquema de dados, forma de armazenamento, disponibilidade de memória e escalabilidade do tamanho do cluster. A análise é feita em dois volumes de dados, gerados por um benchmark de DW bem estabelecido: um cenário onde os dados cabem totalmente na memória e outro cenário onde não cabem totalmente na memória do cluster. Também comparamos o desempenho do DW em termos de tempo médio de execução, volume de dados e tempo de carregamento para completar toda a carga de trabalho. Nossos resultados fornecem insights para ajudar a decidir o cenário mais apropriado para construir um DW distribuído eficiente na nuvem, mostrando que: i) soluções HTAP tendem a exigir mais espaço de armazenamento e se beneficiam mais do esquema FT para a maioria das consultas; ii) soluções OLAP tendem a exigir menos espaço de armazenamento e se beneficiam mais do esquema SS para a maioria das consultas, especialmente se a consulta tiver muitas junções; iii) o esquema FT fornece desempenho mais consistente em todas as soluções; iv) soluções HTAP podem superar soluções OLAP em termos de tempo geral de execução; e v) o desempenho da consulta é fortemente influenciado pelo número de junções e ligeiramente influenciado por sua seletividade.
Palavras-chave: Data Warehouse, SQL Distribuído, NewSQL, Banco de dados colunar, HTAP, Singlestore, MariaDB Columnstore, TiDB, Redshift, IBM Db2 Warehouse, Snowflake, Star Schema Benchmark, Modelagem de Dados, Análise de Performance
Comentários desativados