Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº
  651

Aluno: Fred Eduardo Revoredo Rabelo Ferreira
Orientador: Prof. Robson do Nascimento Fidalgo
Título: Evaluating the impact of data denormalization on OLAP and HTAP architectures: guidelines for efficient Data Warehouse as a Service design
Data: 12/12/2024
Hora/Local: 08h30m – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:

Prof. Eduardo Antonio Guimarães Tavares (UFPE / Centro de Informática)
Prof. Luciano de Andrade Barbosa (UFPE / Centro de Informática)
Prof. Vinicius Cardoso Garcia (UFPE / Centro de Informática)
Prof. Ronaldo dos Santos Mello (UFSC / Departamento de Informática e Estatística)
Prof. Andrêza Leite de Alencar (UFRPE / Departamento de Informática)

RESUMO:
Data Warehouse as a Service (DWaaS) é uma abordagem moderna para Data Warehousing (DW) que utiliza Bancos de Dados (DBMSs) baseados em nuvem para fornecer armazenamento e análise de dados escaláveis e de alto desempenho sem as complexidades do gerenciamento de hardware físico. As soluções DWaaS podem suportar não apenas Online Analytical Processing (OLAP), mas também Hybrid Transactional/Analytical Processing (HTAP). Esses DBMSs podem ser categorizados em duas classes principais: Columnar Relational e NewSQL. Ambas as classes oferecem recursos avançados, como processamento distribuído, armazenamento em colunas e escalabilidade horizontal, que são essenciais para lidar com grandes volumes de dados e consultas complexas de forma eficiente na nuvem. No entanto, tais soluções apresentam diferenças importantes que impactam o volume de dados e o desempenho de consultas (por exemplo, sua arquitetura, método de armazenamento e modelos de dados). O objetivo desta tese é realizar uma avaliação experimental para analisar o impacto da modelagem de dados, especificamente o uso de um Esquema Estrela ou um Esquema de Tabela Flat (totalmente desnormalizado) no contexto de DW distribuído, baseado em nuvem e colunar. Contribuímos para a literatura realizando uma análise do desempenho de vários DBaaS, comparando verticalmente as classes OLAP e HTAP de soluções para compreender melhor seu comportamento em diferentes configurações em termos de esquema de dados, forma de armazenamento, disponibilidade de memória e escalabilidade do tamanho do cluster. A análise é feita em dois volumes de dados, gerados por um benchmark de DW bem estabelecido: um cenário onde os dados cabem totalmente na memória e outro cenário onde não cabem totalmente na memória do cluster. Também comparamos o desempenho do DW em termos de tempo médio de execução, volume de dados e tempo de carregamento para completar toda a carga de trabalho. Nossos resultados fornecem insights para ajudar a decidir o cenário mais apropriado para construir um DW distribuído eficiente na nuvem, mostrando que: i) soluções HTAP tendem a exigir mais espaço de armazenamento e se beneficiam mais do esquema FT para a maioria das consultas; ii) soluções OLAP tendem a exigir menos espaço de armazenamento e se beneficiam mais do esquema SS para a maioria das consultas, especialmente se a consulta tiver muitas junções; iii) o esquema FT fornece desempenho mais consistente em todas as soluções; iv) soluções HTAP podem superar soluções OLAP em termos de tempo geral de execução; e v) o desempenho da consulta é fortemente influenciado pelo número de junções e ligeiramente influenciado por sua seletividade.

Palavras-chave: Data Warehouse, SQL Distribuído, NewSQL, Banco de dados colunar, HTAP, Singlestore, MariaDB Columnstore, TiDB, Redshift, IBM Db2 Warehouse, Snowflake, Star Schema Benchmark, Modelagem de Dados, Análise de Performance

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00