h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Co-optimization of neural networks and hardware architectures for their efficient execution



Verantwortlichkeitsangabevorgelegt von Cecilia Ishtar Durga Latotzke, M.Sc.

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen


Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2023

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2024


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2023-10-20

Online
DOI: 10.18154/RWTH-2024-00638
URL: https://publications.rwth-aachen.de/record/977196/files/977196.pdf

Einrichtungen

  1. Lehrstuhl für Integrierte digitale Systeme und Schaltungsentwurf (611110)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Im Folgenden werden die Motivation, das Ziel und die Aufgabe der Dissertation beschrieben. Der herausragende Sieg von AlexNet bei der ImageNet Large Scale VisualRecognition Challenge (ImageNet) im Jahr 2012 läutete eine neue Ära der KünstlichenIntelligence (AI)-Forschung ein. Dies führte zum allgegenwärtigen Einsatz von TiefenNeuronaler Netze (DNNs) in vielen Entscheidungs- und Klassifikationsaufgaben. Viele dieser Aufgaben erfordern eine direkte Klassifizierung der Daten, auf den Edge-Geräten. Die hohe Leistung von DNNs bei der Entscheidungsqualität geht jedoch mit hohen Rechen- und Datenübertragungskosten einher. Da Edge-Geräte starke Limitierung in Bezug auf ihre Ressourcen haben, ist die Unterstützung von DNNs mit hohen Kosten erschwert. Das Ziel dieser Dissertation ist daher die Entwicklung energieeffizienter und hochpräziser Edge-AI-Systemen. In Kapitel 2 und Kapitel 4 wird ein analytischer Ansatz und in Kapitel 3, Kapitel 5, Kapitel 6 und Kapitel 7 wird eine empirische Methodik verwendet. Die wichtigsten wissenschaftlichen Beiträge dieser Dissertation sind die Folgenden. Kapitel 2 führt den Leser in das allgemeine Thema der Edge-AI-Systemen ein und gibt einen umfassenden Überblick über aktuelle Ansätze zur AI-basierte Algorithmen auf Edge-Systemen energieeffizient und unter Beibehaltung der inhärenten Klassifikationsgenauigkeit zu beschleunigen. Die vorgestellte Methodik auf algorithmischer Ebene und Systemebene in Kapitel 3 konzentriert sich auf die effiziente Klassifizierung von realen Daten auf Edge-Geräten, sie erreicht niedrige Energiekosten und hohe Klassifizierungsgenauigkeit. Gleichzeitig ermöglicht es den schnellen Entwurf von Pareto-optimalen kaskadierten Klassifikatoren für die energieeffiziente Beschleunigung von Klassifizierungsaufgaben auf Edge-Geräten dank der Verwendung von Standard klassifizierern. Da die Energie-, Flächen- und Time-to-Solution-Effizienz der gesamten Kaskade von der Effizienz der einzelnen Klassifizierungsstufen abhängen, wird in Kapitel eine eingehende Analyse von AI-Beschleunigern und ihren jeweiligen Entwurfstechniken vorgestellt. Das Fazit dieser Analyse lautet wie folgt: Die Reduzierung der Wortlänge ist die vielversprechendste Entwurfstechnik auf Systemebene, weil sie einen großen Einfluss auf die Reduzierung des Speicherbedarfs hat und andere Entwurfstechniken ermöglicht oder verbessert. Die Datenübertragung steht in direktem Zusammenhang mit Speicheranforderungen, d.h. der Mindestmenge an Daten, die vom Speicher zu den Recheneinheiten übertragen werden muss. Die meiste Energie wird durch die Datenübertragung und nicht durch die Berechnung verbraucht, so dass sich eine Verringerung der Wortlänge des DNN auf die Gesamtenergieeffizienz des DNN auswirkt. Der Nachteil der Quantisierung ist ihre Auswirkung auf die Genauigkeit. Da das ursprüngliche Ziel dieser Dissertation nicht nur die Entwicklung energieeffizienter AI-Systeme, sondern auch AI-Systeme mit hoher Klassifizierungsgenauigkeit ist, bietet Kapitel 5 eine Methodik zur Quantisierung von DNNs auf niedrige Wortlängen unter Beibehaltung ihrer Fließkommagenauigkeit. Um das DNN nach der Quantisierung neu zu trainieren, wie in Kapitel 5 vorgeschlagen, werden sowohl Trainingsdaten als auch zusätzliche Energie für das Training benötigt. Um von diesen Anforderungen unabhängig zu sein, wird eine Methode für eine datenfreie und energieeffiziente Quantisierung von DNNs ohne erneutes Training in Kapitel 6 vorgeschlagen. Damit wird der beste Kompromiss zwischen Genauigkeit und Energieeffizienz während der Inferenz erreicht. Der Kompromiss zwischen Genauigkeit und Speicheranforderungen wird in den vorgeschlagenen Lösungen aus Kapitel 5 und 6 auf der Pareto-Front von gemischt-präzisen DNNs erzielt. Weitere Effizienzoptimierung der Energie-, Flächen- und Zeit-zur-Lösung kann durch Mixed-Precision DNN spezifische Hardware-Beschleunigerdesigns erreicht werden. Kapitel 7 schlägt daher eine Methode zur Exploration des Designraums von energieeffizienten Hardware-Beschleunigern für Mixed-Precision DNNs vor die für Echtzeitanwendungen auf Edge-Geräten eingesetzt werden können. Die resultierenden Hardwarebeschleuniger nutzen sowohl die inhärente Struktur des zu beschleunigenden DNNs als auch die verfügbaren Hardwareressourcen optimal aus.

The following outlines the motivation, goal, and task of the dissertation. The outstanding victory of AlexNet in the ImageNet Large Scale VisualRecognition Challenge (ImageNet) in 2012 launched a new era of Artificial Intelligence (AI) research. This has led to the ubiquitous use of DeepNeural Networks (DNNs) in many decision and classification tasks. Many of these tasks require direct classification of the data available on the edge devices. However, the high performance of DNNs in decision quality comes with high computational and data transfer costs. As edge devices are highly constrained with regards to their resources, the support of DNNs with high costs is more difficult. Thus, this dissertation targets the development of energy-efficient and highly accurate edge AI systems. An analytical approach is applied for Chapter 2 and Chapter 4 and an empirical methodology is used for Chapter 3, Chapter 5, Chapter 6, and Chapter 7. The major scientific contributions of this dissertation are the following. Chapter 2 introduces the reader to the general topic of edge AIsystems and provides a comprehensive overview of current approaches to energy-efficiently accelerate AI-based algorithms on edge systems while maintaining their inherent classification accuracy. Chapter 3 focuses on efficient classification of real-world data on edge devices, the presented methodology on algorithmic and system level achieves low energy cost and high classification accuracy. At the same time, it enables the rapid design of Pareto-optimal cascaded classifiers for the energy-efficient acceleration of classification tasks on edge devices thanks to the use of standard classifiers. Since the energy, area, and time-to-solution efficiency of the entire cascade depend on the efficiency of each classification stage, an in-depth analysis of AI accelerators and their respective design techniques is presented in Chapter 4. The bottom line of this analysis is as follows: word-length reduction is the most promising system-level design technique because it has a large impact on reducing memory requirements and enables or enhances other design techniques. Data transfer is directly related to memory requirements, i.e., the minimum amount of data that must be transferred from memory to computing units. Most energy is consumed by data transfer, not computation, so reducing the word-length of the DNN affects the total energy efficiency of the DNN. The drawback of quantization is its impact on accuracy. Since the original goal of this dissertation is not only the development of energy-efficient edge AI systems but also AI systems with high classification accuracy, Chapter 5 offers a methodology for quantizing DNNs to low word-lengths while maintaining their floating-point accuracy. To retrain the DNN after quantization, as proposed in Chapter 5, both training data and additional energy for retraining are needed. To be independent of these requirements, a method for data-free and energy-efficient quantization of DNNs without retraining is proposed in Chapter 6 to achieve the best trade off between accuracy and energy efficiency during inference. The trade off between accuracy and memory requirements is dominated on the Pareto front by mixed-precision DNNs in both solutions proposed in Chapter 5 and Chapter 6. Further optimization of the energy, area, and time-to-solution efficiency can be achieved through hardware accelerator designs specific to each mixed precision DNN. Chapter 7 therefore proposes a design space exploration method of energy-efficient hardware accelerators for mixed-precision DNNs used for real-time applications on edge devices. The resulting hardware accelerators make optimal use of both the inherent structure of the target DNN as well as the available hardware resources.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT030686075

Interne Identnummern
RWTH-2024-00638
Datensatz-ID: 977196

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
611110

 Record created 2024-01-18, last modified 2024-03-18


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)