Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº  506

Aluno: Jairson Barbosa Rodrigues
Orientador: Prof. Germano Crispim Vasconcelos
Co-orientador: Prof. Paulo Romero Martins Maciel
Título: Análise de Fatores Relevantes no Desempenho de Plataformas para Processamento de Big Data — Uma Abordagem Baseada em Projeto de Experimentos 

Data: 30/10/2020
Hora/Local: 14h – Virtual – https://meet.google.com/tfe-gopw-bhv
Banca Examinadora:
Prof. Carlos André Guimarães Ferraz (UFPE / Centro de Informática)

Prof. Kiev Santos da Gama (UFPE / Centro de Informática)
Prof. Renato Tinós (USP / Departamento de Computação e Matemática)
Prof. Alexandre Magno Andrade Maciel (UPE / Escola Politécnica de PE)
Prof. Paulo Renato Alves Firmino (UFCA / Centro de Ciências e Tecnologia)


RESUMO:

Uma série de fenômenos tecnológicos, sociais e de mercado originaram um paradigma comumente referenciado pelo termo big data: grandes conjuntos de dados, criados a taxas muito altas, em formatos diversos e obtidos de variadas fontes. Em paralelo surgiu a demanda por tecnologias capazes de lidar com escalabilidade, redundância e tolerância a falhas. Comumente, tais características são alcançadas através de frameworks de software executando em clusters no modelo de computação nas nuvens. O desempenho das tarefas em termos de tempo e custo depende de fatores como hardware, volume de dados e tipo de algoritmo a ser executado. Escolher a configuração mais adequada é um problema de notória dificuldade devido ao número de soluções possíveis e inviabilidade de investigação de todos os cenários. Isto posto, esta pesquisa se concentra na análise experimental de algoritmos distribuídos de aprendizagem de máquina em plataformas de processamento para big data e se justifica por habilitar o adequado aprovisionamento de recursos em circunstâncias computacionais complexas. É proposta uma metodologia para avaliação da influência de fatores sobre tempo e custo, a triagem e ordenação daqueles mais relevantes, e a derivação de modelos preditores. A pesquisa é baseada nas técnicas estatísticas de projeto de experimentos 2k fatorial randomizado com replicações, nos formatos completo e fracionado resolução V sem confundimento de fatores até segunda-ordem. O desempenho de 288 clusters reais distintos foi avaliado através de seis projetos com 48 unidades experimentais, cada uma composta por arranjos de 8 e 28 máquinas, e cada máquina variando entre 12 e 32 núcleos, 1, 7 e 8 discos, 3x e 6x RAM por núcleo, totalizando um poder computacional de até 896 núcleos e 5.25 TB de RAM. Os experimentos foram conduzidos sobre duas bases de dados. Primeiramente foram construídos 1.06 TB de dados sintéticos estruturados em 3.65 milhões de instâncias e 40 mil dimensões para classificação através de Florestas Aleatórias. Posteriormente, foi construído um Corpus (PT7) com 249 GB de dados não estruturados de 16 milhões de páginas web de sete países de língua portuguesa. A tarefa computacional consistiu na classificação de texto para distinguir o português brasileiro de outras variações. Cinco diferentes algoritmos foram examinados: Regressão Logística, Florestas Aleatórias, Máquinas de Vetores de Suporte, Naïve Bayes e Perceptron de Múltiplas Camadas. Análises de regressão foram aplicadas para quantificar a influência dos fatores. Os resultados incluem modelos lineares para estimar tempo e custo, a quantitifação dos efeitos dos fatores sobre a resposta e uma ferramenta de vi- sualização baseada em coordenadas paralelas para auxiliar o emprego dos modelos. Por fim, o trabalho fornece evidências da relevância dos métodos DoE como uma abordagem reproduzível para entender e estimar o consumo de recursos em ambientes de big data.

Palavras-chaves: Projeto de Experimentos (DoE). Aprendizagem de Máquina. Computação Distribuída. Big Data. Modelos Preditores. Inferência Estatística.

Comentários desativados