Hardware Implementation of Machine Learning and Deep-Learning Systems oriented to Image Processing

Author

Franco Frasser, Christiam Camilo

Director

Rosselló Sanz, José Luis

Roca Adrover, Miquel Jesús

Tutor

Rosselló Sanz, José Luis

Date of defense

2022-05-23

Pages

152 p.



Abstract

[spa] El aprendizaje de m aquinas (ML) y aprendizaje profundo (DL) han experimentado un creciente inter es en la comunidad cient ca en la ultima d ecada. Desafortunadamente, la implementaci on de dichos algoritmos en hardware sigue siendo un gran reto. El gran n umero de operaciones que ocupan mucha area, como es el caso de la multiplicaci on, ha llevado a los investigadores a pensar en nuevas metodolog as para poder operar. Una de las t ecnicas m as prometedoras es la computaci on estoc astica (SC). En la computaci on estoc astica, un n umero es descrito como la probabilidad de encontrar un uno l ogico a trav es de una cadena de bits, con esto, ocupando solamente 1 hilo en el bus de datos. Debido a que opera en el dominio probabil stico, operaciones complejas como la multiplicaci on son reducidas a compuertas l ogicas individuales. Aun as , algunos desaf os siguen estando presentes, tal como: (a) los altos recursos utilizados para implementar generadores de n umeros aleatorios (RNG) independientes, (b) la degradaci on de la precisi on producida por los efectos de la correlaci on entre se~nales, y (c) la realizaci on de otras funciones esenciales para la aplicaci on en cuesti on. En lugar de reducir el fen omeno de correlaci on, en este trabajo, estudiamos y explotamos los efectos que produce sobre las se~nales. Esto nos permite realizar operaciones esenciales en aplicaciones de DL como es la funci on m axima. Adem as, llevamos a cabo las pruebas de casos de uso en implementaciones digitales reales, no solo simulaciones, empleando plataformas FPGA. Para el modelo m as complejo de la presente tesis (una red neuronal convolucional, CNN), se realiza una implementaci on completamente paralela utilizando un solo chip de FPGA. La s ntesis VLSI de dicho circuito se compara con otros trabajos relevantes encontrados en la literatura, superando el rendimiento de todos ellos.


[cat] Els aprenentatges autom atic (ML) i profund (DL) han mostrat dins la darrera d ecada un molt alt inter es dins de la comunitat cient ca. Malauradament la implementaci o dels algorismes en hardware continua representant a dia d'avui un gran repte tecnol ogic. El gran nombre d'operacions involucrades en el proc es impliquen la necessitat de molta area (com passa en el cas dels blocs multiplicadors molt presents dins els algorismes esmentats). Aquesta situaci o ha fet que els investigadors intentin desenvolupar noves metodologies per poder fer aquestes operacions entre moltes altres. Una de les t ecniques que destaca pel seu inter es es la computaci o estoc astica (SC). La computaci o estoc astica considera un senyal descrit com la probabilitat de trobar un 1 l ogic a trav es d'una cadena de bits emprant, per tant, un unic l del bus de dades. El fet de que la computaci o estoc astica operi en el domini probabil stic, operacions complexes com la multiplicaci o, abans esmentada, es redueixen a l' us de portes l ogiques simples (una unica porta en el cas de la multiplicaci o). Tot i aix , alguns reptes segueixen estant presents, tals com: (a) els recursos utilitzats per implementar generadors de nombres aleatoris (RNG) independents, (b) la disminuci o de la precisi o que es produeix degut als efectes de la correlaci o entre senyals, i (c) la implementaci o d'altres funcions essencials per a les aplicacions basades en ML i DL. En lloc d'intentar evitar el fenomen de correlaci o, en aquest treball ho empram degut als efectes que produeix sobre els senyals. Aix o ens permet fer operacions essencials en aplicacions de DL com es el cas de la funci o m axim. A m es, es duen a terme les proves d'aplicacions reals en implementacions digitals, i no nom es simulacions si no tamb e emprant plataformes hardware basades en FPGA. Pel model m es complex desenvolupat en la present tesi (una xarxa neuronal convolucional, CNN), es realitza una implementaci o completament paral·lela emprant una unica FPGA. La s ntesi VLSI d'aquest circuit es compara amb altres treballs rellevants trobats a la literatura, a on iii es mostra que en el present treball es supera el rendiment de tots ells.


[eng] Machine Learning (ML) and Deep Learning (DL) have experienced a booming interest from the research community in the last decade. Unfortunately, the implementation of such algorithms in hardware keeps being a total challenge. The vast number of area-hungry operations, such as the multiplication, has led researchers to think about new methodologies to operate. One of these promising techniques is Stochastic Computing (SC). In SC, a number is described as the probability to nd a logic one along a bit-stream, therefore, occupying only 1-wire. Since it operates in the probabilistic realm, complex operations such as multiplication are reduced to single logic gates. However, some concerns are to be addressed in the quest to take ML and DL to SC: (a) the high resources used to implement independent Random Number Generators (RNGs), (b) the accuracy degradation produced by the correlation e ects between signals, and (c) the SC realization of essential functions for the considered application. In this thesis, we tackle all these concerns. We present a deep analysis of the more employed RNG in SC: the LFSR. We provide two real case implementations in which only two LFSRs are needed to operate a complete DL model. Instead of mitigating the correlation phenomenon, as it is normally attempted by researchers, we study the correlation phenomenon and exploit the e ects that it produces over signals. This allows us to realize essential operations in DL applications such as the maximum function. In addition, we conduct the use-case tests in real digital implementations, not only simulations, using FPGA platforms. For the more complex model in the present thesis (a Convolutional Neural Network), a fully-parallel implementation is realized on single FPGA chip. The VLSI synthesis of such a circuit is compared with other relevant works found in literature, surpassing the performance of all of them.

Keywords

Digital Systerns; FPGA; Machine Learníng; Pattern Recognition; Artificial Neural Networks; Stochastic Computing; ConvolutionaI NeuralNetworks; Edge Computing

Subjects

621.3 Electrical engineering

Knowledge Area

lmplementació eficient de Machíne Learning en hardware

Documents

Franco_Frasser_ChristianCamilo.pdf

3.914Mb

 

Rights

ADVERTIMENT. Tots els drets reservats. L'accés als continguts d'aquesta tesi doctoral i la seva utilització ha de respectar els drets de la persona autora. Pot ser utilitzada per a consulta o estudi personal, així com en activitats o materials d'investigació i docència en els termes establerts a l'art. 32 del Text Refós de la Llei de Propietat Intel·lectual (RDL 1/1996). Per altres utilitzacions es requereix l'autorització prèvia i expressa de la persona autora. En qualsevol cas, en la utilització dels seus continguts caldrà indicar de forma clara el nom i cognoms de la persona autora i el títol de la tesi doctoral. No s'autoritza la seva reproducció o altres formes d'explotació efectuades amb finalitats de lucre ni la seva comunicació pública des d'un lloc aliè al servei TDX. Tampoc s'autoritza la presentació del seu contingut en una finestra o marc aliè a TDX (framing). Aquesta reserva de drets afecta tant als continguts de la tesi com als seus resums i índexs.

This item appears in the following Collection(s)