Neural Networks, DeepFloat & TensorFlow Lite; Post-Training Quantization Case Study

Dias, Simão Pedro das Neves Gonçalves

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/90159

Título:	Neural Networks, DeepFloat & TensorFlow Lite; Post-Training Quantization Case Study
Outros títulos:	Redes Neuronais, DeepFloat & TensorFlow Lite; Caso de Estudo de Quantização Pós-Treino
Autor:	Dias, Simão Pedro das Neves Gonçalves
Orientador:	Fernandes, Gabriel Falcão Paiva
Palavras-chave:	Machine Learning; Quantização Pós-Treino; DeepFloat; Array Sistólico; Redes Neuronais; Machine Learning; Pos-Training Quantization; DeepFloat; Systolic Array; Neural Networks
Data:	20-Fev-2020
Título da revista, periódico, livro ou evento:	Neural Networks, DeepFloat & TensorFlow Lite; Post-Training Quantization Case Study
Local de edição ou do evento:	DEEC
Resumo:	Recentemente, Machine Learning (ML) passou por um período de renascimento devido à melhoria dos sistemas de computação e memórias dos computadores. A internet também teve um papel fundamental, permitindo o acesso e agregando enormes quantidades de dados. À medida que a tecnologia evolui, as optimizações feitas aos seus processos têm vindo a obter destaque.Tradicionalmente, os modelos de machine learning são bastante pesados em termos de memória e computações durante as fases de inferência e treino.Uma técnica de otimização utilizada em ML é focada na fase de inferência. Os modelos são tipicamente treinados em 32-bits, mas em vez de se realizar a inferência em 32-bits (operações e gravação), esta pode ser quantizada para um formato que utiliza menos bits - um processo designado por Quantização Pós-treino.Tipicamente, quanto menos bits forem guardados e movimentados num sistema, menor será a energia consumida e mais rápidas serão as computações implementadas, resultando num sistema mais eficiente, dado o mesmo tipo de tarefas.O objetivo deste estudo é comparar duas técnicas de quantização pós-treino de 8 bits utilizando dois modelos básicos diferentes, explorando os seus potenciais e as suas ressalvas. Ambos os modelos foram treinados para classificar algarismos escritos manualmente, em que o primeiro modelo é focado em camadas Fully Connected e o segundo é focado em camadas Convolutional.Uma das técnicas estudadas utiliza um sistema de representação numérica novo e este trabalho também explora um modelo para compreender como este sistema acumula erro. Em suma, é uma tentativa para perceber qual dos métodos fornece uma solução mais eficaz e prática. In recent years, Machine Learning (ML) went through a renascence due to improvements in computing systems and computer memories. The internet also played an important role, by providing access to and aggregating large amounts of data. As this technology evolves, optimizations to its processes are receiving more attention.Traditionally, machine learning models are intense in both memory and computations during training and inference.An optimization technique used in ML is focused on the inference phase. Models are typically trained in 32-bits, but instead of performing inference in 32-bits (operations and storage), it can be quantized to a format that uses fewer bits - this is called Post-training quantization.Usually, the fewer bits being stored and moved around in a computing system, the less energy is consumed, thus faster computations are performed, resulting in a more efficient system, given equivalent tasks.The goal of this study is to compare two 8-bit Post-training Quantization techniques by using two different basic models and exploit both their potentials and caveats. Both models are trained to classify handwritten numbers, the first one is focused on Fully Connected layers while the second focuses on Convolutional Layers.One of the techniques examined adopts a novel numeric representation system and this work also explores a model to understand how the system accumulates error. In short, it is an attempt at understanding which method provides a more efficient and practical solution.
Descrição:	Dissertação de Mestrado Integrado em Engenharia Electrotécnica e de Computadores apresentada à Faculdade de Ciências e Tecnologia
URI:	https://hdl.handle.net/10316/90159
Direitos:	openAccess
Aparece nas coleções:	UC - Dissertações de Mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Simão Dias Dissertação Revista Orientador.pdf		6.25 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo

Visualizações de página

228

Visto em 16/abr/2024

Downloads

305

Visto em 16/abr/2024

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Visualizações de página

Downloads

Google ScholarTM

Google Scholar^TM