Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº
 2.161

Aluno: Lucas Geraldo Cilento
Orientador:  Prof. Daniel Carvalho da Cunha
Coorientador: Prof. Paulo Salgado Gomes de Mattos Neto
Título: Avaliação de Arquiteturas Web Application Firewalls baseadas em 
Aprendizagem de Máquina
Data: 25/09/2024
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Paulo Freitas de Araujo Filho (UFPE / Centro de Informática)
Prof. Carlo Marcelo Revoredo da Silva (UPE / Escola Politécnica de PE)
Prof. Daniel Carvalho da Cunha  (UFPE / Centro de Informática)

RESUMO:

Modelos de aprendizagem de máquina estão presentes na maioria das soluções de segurança da informação, incluindo os WAFs. Hoje, boa parte do tráfego web é filtrado por WAFs baseados em detecção de anomalias antes de chegar nos servidores HTTP. Além da preocupação com a detecção dos ataques, também é necessário considerar a latência introduzida por tais ferramentas em aplicações web que precisam manter uma alta responsividade e disponibilidade para seus clientes. Para abordar ambos os fatores, é necessário avaliar não apenas os modelos de aprendizagem de máquina, mas toda a arquitetura desde o pré-processamento das requisições HTTP até a classificação da requisição. Nesta dissertação propomos um framework para avaliação de arquiteturas de WAFs baseadas em modelos de aprendizagem de máquina e avaliamos como alguns hiperparâmetros afetam o desempenho na detecção de ataques web. Como base para o processamento das requisições HTTP, foi utilizada a combinação da técnica N-gram com a técnica TF-IDF para a vetorização das requisições e o parâmetro N foi avaliado com os valores 1,2 e 3. Na etapa de redução das variáveis, foram utilizados 3 métodos: seleção chi quadrado, seleção por informação mútua e o método PCA. Para os modelos de aprendizagem de máquina, foram considerados os modelos de Regressão Logística, Support Vector Machine, Árvore de Decisão e os modelos ensemble de Floresta Randômica e Gradient Boosting. Os resultados obtidos mostram que o valor com melhor custo benefício para o N-gram é o N=2 e que o método de redução de variáveis que menos impactou o desempenho dos modelos foi o método chi quadrado. Por fim, todos os modelos melhoraram o tempo de classificação com a redução de variáveis, mas o modelo Floresta Randômica manteve o desempenho mais estável perante os demais modelos após a redução das variáveis em até 90%.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00