Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 1.951
Aluno: Alesanco Andrade Azevedo
Orientador: Prof. Robson do Nascimento Fidalgo
Título: Warehouse NewSQL: Uma análise de Desempenho Explorando
Estratégias de Armazenamento e Distribuição
Data: 26/02/2021
Hora/Local: 14h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Eduardo Antônio Guimarães Tavares (UFPE / Centro de Informática)
Prof. Cláudio de Souza Baptista (UFCG / Centro de Engenharia Elétrica e Informática,Sistemas e Computação)
Prof. Robson do Nascimento Fidalgo (UFPE / Centro de Informática)
RESUMO:
Alternativas aos bancos de dados relacionais têm sido propostas no projeto
de Data Warehouses (DWs), com o intuito de permitir o armazenamento e o
processamento de grandes volumes de dados. Nesse contexto, os bancos de
dados NewSQL surgem como uma opção capaz de atender tais demandas,
oferecendo escalabilidade horizontal, linguagem SQL e armazenamento
principal em memória RAM. Dentre as opções de bancos de dados NewSQL
existentes, alguns permitem a escolha pela forma de armazenamento das
tabelas e pelo método de distribuição de tuplas, onde suas combinações
podem provocar diferenças no desempenho das aplicações. Existem estudos que
comparam o desempenho entre bancos de dados NewSQL ou entre estes e os
bancos de dados NoSQL, contudo, não há estudos que analisem o desempenho de
NewSQL, quando aplicado a DWs, observando variações na forma de
armazenamento, de distribuição ou na modelagem de dados. Dessa forma,
propomos uma análise de desempenho em DWs NewSQL, comparando o esquema
estrela com tabelas flat, formas de armazenamento (rowstore e columnstore)
e métodos de distribuição, em diferentes fatores de escala. Com esse
objetivo, desenvolvemos uma avaliação experimental de desempenho em DWs,
utilizando o Star Schema Benchmark e o banco de dados MemSQL, numa
estrutura de cluster computacional. Para a avaliação experimental,
utilizamos métricas de volume de dados e tempo, em tarefas de carga e
consultas de dados. Após a experimentação em DWs distribuídos com banco de
dados NewSQL, verificamos que o uso de tabelas flat, armazenamento
columnstore e qualquer estratégia de particionamento gerou os melhores
desempenhos no tempo médio de consultas, apesar da elevada desvantagem no
tempo de carga e no volume de dados. Destacamos ainda que o uso de
columnstore (mesmo sendo em disco) conseguiu obter melhores resultados em
tarefas de consulta, quando comparado rowstore (em memória RAM), para todos
os cenários avaliados.
Palavras-chave: Data Warehouse . NewSQL . Desempenho . MemSQL .
Columnstore . Rowstore . SSB
Comentários desativados