Foto von Harrison Broadbent auf Unsplash

Dieser Bericht fasst die technologischen Trends zusammen, die das Phänomen des dunklen Siliziums hervorrufen, seine Auswirkungen auf die Server und die Bemühungen, sie einzudämmen, basierend auf dem 2011 von Hardavellas et al. Serverchips skalieren nicht über eine bestimmte Grenze hinaus. Infolgedessen bleibt ein zunehmender Teil des Chips ausgeschaltet, bekannt als dunkles Silizium, das wir uns nicht leisten können. Spezialisierte Multi-Core-Prozessoren können reichlich vorhandene, nicht ausgelastete und leistungsbeschränkte Die-Bereiche nutzen, indem sie verschiedene anwendungsspezifische heterogene Kerne bereitstellen, um die Serverleistung und die Energieeffizienz zu verbessern.

Daten wachsen exponentiell. Es erfordert Rechenenergie, um Berechnungen zu verarbeiten und durchzuführen. Es wurde beobachtet, dass Daten schneller wachsen als das Mooresche Gesetz . Das Mooresche Gesetz besagt, dass sich die Computerleistung, die CPU-Taktrate und die Anzahl der Transistoren pro Chip alle zwei Jahre verdoppeln werden. Eine beispiellose Menge an Rechenenergie ist erforderlich, um diese Herausforderung zu bewältigen. Es genügt, sich ein Bild vom Energiebedarf an einem Beispiel zu machen, dass 1000m2 Rechenzentrum 1,5 MW beträgt. Heutzutage werden Multicore-Prozessoren verwendet, um diese Daten zu verarbeiten. Es wird angenommen, dass die Leistung eines Systems direkt proportional zur Anzahl der verfügbaren Kerne ist. Dieser Glaube ist jedoch nicht wahr, da die Leistung nicht dem Mooreschen Gesetz folgt. In Wirklichkeit ist die Leistung aufgrund einiger physikalischer Einschränkungen wie Bandbreite, Leistung und thermischen Grenzen viel langsamer als die erwarteten Ergebnisse, wie in Abbildung 1 gezeigt.

Abbildung 1: Physikalische Einschränkungen

Es wird beobachtet, dass die Bandbreite außerhalb des Chips langsam wächst. Infolgedessen können Kerne nicht schnell genug mit Daten versorgt werden. Eine Erhöhung der Anzahl der Transistoren verringert die Spannung nicht schnell genug. Ein 10-facher Anstieg der Transistoren führte im letzten Jahrzehnt nur zu einem Spannungsabfall von 30%. Ebenso ist die Leistung durch Kühlgrenzen eingeschränkt, da die Kühlung überhaupt nicht skaliert. Um die Multicore-Revolution voranzutreiben, wächst die Anzahl der Transistoren auf dem Chip exponentiell. Der gleichzeitige Betrieb aller Transistoren erfordert jedoch exponentiell mehr Leistung pro Chip, was aufgrund der zuvor erläuterten physikalischen Einschränkungen einfach nicht möglich ist. Infolgedessen bleibt ein exponentiell großer Bereich des Chips ungenutzt, der als dunkles Silizium bekannt ist.

Der dunkle Siliziumbereich wächst exponentiell, wie die Trendlinie in Abbildung 2 zeigt. In diesem Diagramm wird die Die-Größe der Spitzenleistung für die verschiedenen Workloads mit der Zeit aufgetragen. Mit einfachen Worten, wir können nur einen Bruchteil der auf einem großen Chip verfügbaren Transistoren verwenden, und der Rest der Transistoren bleibt ausgeschaltet.

Abbildung 2: Chipgrößentrend

Nun stellt sich die Frage, ob wir diesen großen ungenutzten dunklen Bereich des Chips verschwenden sollten? Hardavellas et al. wiederverwendung von dunklem Silizium für Chip-Multiprozessoren (CMPs) durch Aufbau eines Meeres spezialisierter heterogener anwendungsspezifischer Kerne. Diese spezialisierten Kerne treiben dynamisch nur wenige ausgewählte Kerne an, die explizit für die angegebene Arbeitslast entwickelt wurden. Die meisten dieser Anwendungskerne bleiben deaktiviert / dunkel, wenn sie nicht verwendet werden.

Vorteile spezialisierter Kerne: Spezialisierte Kerne sind besser als herkömmliche Kerne, da sie Gemeinkosten eliminieren. Um beispielsweise auf ein Datenstück aus dem lokalen Speicher, dem L2-Cache und dem Hauptspeicher zuzugreifen, sind 50 pJ, 256-1000 pJ bzw. fast 16000 pJ Energie erforderlich. Diese Gemeinkosten gehören zum Allzweck-Computing, während ein sorgfältig entwickelter spezialisierter Kern die meisten dieser Gemeinkosten eliminieren kann. Spezialisierte Kerne verbessern die Gesamtleistung und Energieeffizienz von Server-Workloads, indem sie die Auswirkungen physischer Einschränkungen mindern.

1.1 Methodik

Um das Ausmaß von dunklem Silizium zu beurteilen, ist es entscheidend, eine große Anzahl von Designparametern gemeinsam zu optimieren, um CMPs zu komponieren, die in der Lage sind, Spitzenleistungen zu erzielen, während sie innerhalb der physikalischen Grenzen bleiben. Daher entwickeln wir Analysemodelle erster Ordnung, indem wir die Hauptkomponenten des Prozessors optimieren, z. B. die Schwellenspannung &, die Taktfrequenz, die Cache-Größe, die Speicherhierarchie und die Anzahl der Kerne. Das Ziel der analytischen Modelle ist es, Peak-Performance-Designs abzuleiten und die physikalischen Einschränkungen des Prozessors zu beschreiben. Detaillierte parametrisierte Modelle werden nach ITRS*-Standards aufgebaut. Diese Modelle helfen bei der Erforschung des Designraums von Multicores. Beachten Sie, dass diese Modelle nicht die absolute Anzahl von Kernen oder Cache-Größe vorschlagen, die erforderlich ist, um die Spitzenleistung in den Prozessoren zu erreichen. Stattdessen handelt es sich um analytische Modelle, die vorgeschlagen werden, um die Auswirkungen der Technologieskalierung erster Ordnung zu erfassen und die Trends aufzudecken, die zu dunklem Silizium führen. Die Leistung dieser Modelle wird in Bezug auf den aggregierten Serverdurchsatz gemessen und das Modell wird autonom im heterogenen Computing untersucht.

Um solche Modelle zu konstruieren, haben wir einige Designkonfigurationsoptionen für Hardware-, Bandbreiten-, Technologie-, Strom- und Flächenmodelle getroffen, wie im nächsten Abschnitt ausführlich beschrieben.

2.1 Hardwaremodell

CMPs sind auf drei Arten von Kernen aufgebaut, d. H. General Purpose (GPP), Embedded (EMB) und Specialized (SP). GPPs sind skalare In-Order-Vier-Wege-Multithread-Kerne und bieten einen hohen Durchsatz in einer Serverumgebung, indem sie 1,7-mal mehr Geschwindigkeit als ein Single-Threaded-Kern erreichen . EMB-Kerne repräsentieren ein leistungsbewusstes Designparadigma und ähneln in ihrer Leistung GPP-Kernen. Spezialisierte Kerne sind CMPs mit spezialisierter Hardware, z. B. GPU, digitalen Signalprozessoren und feldprogrammierbaren Gate-Arrays. Es werden nur die Hardwarekomponenten eingeschaltet, die für die jeweilige Arbeitslast zu jeder Zeit am besten geeignet sind. SP-Kerne übertreffen GPP-Kerne 20x mit 10x weniger Leistung.

2,2 Technologie Modell

CMPs sind modelliert über 65nm, 45nm, 32nm, und 20nm herstellung technologien folgenden ITRS projektionen. Transistoren mit einer hohen Schwellenspannung Vth sind am besten geeignet, um die Absenkung des Leckstroms zu bewerten. Daher hohe Vth transistoren sind verwendet zu mildern die wirkung von power wand. CMPs mit Hochleistungstransistoren für den gesamten Chip, LOP (Low Operating Power) für den Cache und LOP-Transistoren für den gesamten Chip werden verwendet, um die Eigenschaften und das Verhalten des Modells zu untersuchen.

2,3 Bereich Modell

Die modell beschränkt die sterben bereich zu 310mm2. Interconnect- und System-on-Chip-Komponenten nehmen 28% der Fläche ein, der Rest der 72% entfällt auf Kerne und Cache. Wir können Kernbereiche abschätzen, indem wir vorhandene Designs für jeden Kerntyp gemäß den ITRS-Standards skalieren. UltraSPARC T1 Core ist für GPP-Kerne und ARM11 für EMB- und SP-Kerne skaliert.

2.4 Leistungsmodell

Das Amdahlsche Gesetz ist die Grundlage des Leistungsmodells. Es geht von 99% Anwendungsparallelität aus. Die Leistung eines einzelnen Kerns wird durch Aggregieren von UIPC (user instructions committed per cycle) berechnet. UIPCis berechnet in Bezug auf die Speicherzugriffszeit, die durch die folgende Formel gegeben ist:

AverageMemoryAccessTime = HitTime + MissRate × MissPenalty

UIPC ist proportional zum Gesamtsystemdurchsatz. Detaillierte Formeln, Ableitungen und Berechnungen des Leistungsmodells finden Sie unter .

2.5 L2 Cache Miss Rate und Data-set Evolution models

Die Schätzung der Cache Miss Rate für die gegebene Arbeitslast ist wichtig, da sie eine entscheidende Rolle für die Leistung spielt. Der L2-Cache mit einer Größe zwischen 256 KB und 64 MB wird mithilfe empirischer Messungen an die Kurve angepasst, um die Cache-Miss-Rate abzuschätzen. Das x-verschobene Potenzgesetz
y = α (x + β ) ^ γ passt am besten zu unseren Daten mit einer durchschnittlichen Fehlerrate von nur 1,3%. Miss-Rate-Skalierungsformeln sind in dieser Arbeit mit Details aufgeführt .

2.6 Off-Chip-Bandbreitenmodell

Die Anforderungen an die Chipbandbreite werden durch Schätzung der Off-Chip-Aktivitätsrate, d. H. der Taktfrequenz und der Kernleistung, modelliert. Die Off-Chip-Bandbreite ist proportional zur L2-Miss-Rate, zur Kernanzahl und zur Kernaktivität. Die maximal verfügbare Bandbreite ergibt sich aus der Summe der Anzahl der Pads und der maximalen Off-Chip-Takte. In unserem Modell behandeln wir 3D-Stacked-Speicher aufgrund seiner hohen Kapazität und hohen Bandbreite als großen L3-Cache. Jede schicht von 3D gestapelt speicher ist 8 Gbits zu 45nm technologie. Der Energieverbrauch jeder Schicht beträgt im schlimmsten Fall 3,7 Watt. Wir modellieren 8 Schichten mit einer Gesamtkapazität von 8 GByte und eine zusätzliche Schicht für die Steuerlogik. Die Zugabe von 9 Schichten erhöht die Chiptemperatur auf 10 ° C. Dennoch berücksichtigen wir die Verlustleistung, um diesen Effekten entgegenzuwirken. Wir schätzen, dass 3D-Stacking die Speicherzugriffszeit um 32% verbessern wird.5%, weil es die Kommunikation zwischen den Kernen und dem 3D-Speicher sehr effizient macht.

2,7 Power Modell

Insgesamt chip power ist berechnet durch zugabe der statische und dynamische power von jeder komponente, wie core, cache, I/O, interconnect, etc. Wir verwenden ITRS-Daten, um die maximal verfügbare Leistung für luftgekühlte Chips mit Kühlkörpern zu verwalten. Unser Modell nimmt maximale Leistungsgrenzen als Eingabe und verwirft alle CMPs-Designs, die die definierten Leistungsgrenzen überschreiten. Flüssigkeitskühltechnologien können die maximale Leistung erhöhen, es ist uns jedoch noch nicht gelungen, thermische Kühlmethoden in Kernen anzuwenden. Die dynamische Leistung von N Kernen und L2-Cache wird unter Verwendung der im Papier mit Details genannten Formeln berechnet.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Abbildung 3: Leistung von Allzweck-Chip-Multiprozessoren (GPP)

3 ANALYSE

Nach dem Entwurf müssen wir die Verwendung unserer Analysemodelle demonstrieren. Wir werden die Spitzenleistungsdesigns von Allzweck- und spezialisierten Multicore-Prozessoren in den nächsten beiden Unterabschnitten untersuchen. Darüber hinaus werden wir auch die Kernzahlen für diese Designs bewerten und durch vergleichende Analyse abschließen.

3.1 Allzweck-Multicore-Prozessoren

Wir beginnen mit der Erläuterung des Fortschritts unseres Peak Performance Design-Space Exploration-Algorithmus anhand der in Abbildung 3 gezeigten Ergebnisse. Abbildung 3a stellt die Leistung eines 20-nm-GPP-CMPs dar, auf dem Apache mit Hochleistungstransistoren (HP) für Kerne und Cache ausgeführt wird. Das Diagramm stellt die Gesamtleistung des Chips als Funktion der L2-Cache-Größe dar. Dies bedeutet, dass ein Bruchteil der Die-Fläche dem L2-Cache gewidmet ist (dargestellt in MB auf der x-Achse).

Die Flächenkurve zeigt die Leistung des Designs mit unbegrenzter Leistung und Off-Chip-Bandbreite, aber eingeschränktem On-Chip-Die-Bereich. Je größer der Cache, desto weniger Kerne. Obwohl einige wenige Kerne auf die verbleibende Die-Fläche passen, schneidet jeder Kern aufgrund der hohen Trefferrate des größeren Caches am besten ab. Der Leistungsvorteil wird erreicht, indem der L2-Cache auf 64 MB erhöht wird. Danach werden die Kosten für die weitere Reduzierung der Anzahl der Kerne aufgewogen.

Leistungskurve zeigt die Leistung des Designs, das bei maximaler Frequenz mit begrenzter Leistung aufgrund von Luftkühlungsbeschränkungen ausgeführt wird, jedoch eine unbegrenzte Bandbreite und Fläche außerhalb des Chips aufweist. Die Leistungsbeschränkung schränkt die Gesamtleistung des Chips ein, da der Betrieb der Kerne mit der maximalen Frequenz eine beispiellose Energiemenge erfordert, die das Design auf nur sehr wenige Kerne beschränkt.

Die Bandbreitenkurve stellt die Leistung des Designs dar, das mit einer unbegrenzten Leistung und einem Chipbereich mit begrenzter Off-Chip-Bandbreite ausgeführt wird. Ein solches Design reduziert den Off-Chip-Bandbreitendruck aufgrund der größeren verfügbaren Cache-Größe und verbessert die Leistung. Die Area + Power-Kurve repräsentiert die Leistung des Designs, die in Leistung und Fläche begrenzt ist, aber eine unbegrenzte Off-Chip-Bandbreite aufweist. Ein solches Design optimiert gemeinsam die Frequenz und Spannung der Kerne, indem das Spitzenleistungsdesign für jede L2-Cache-Größe ausgewählt wird.

Peak Performance Curve repräsentiert das Multicore-Design, das sich an alle physikalischen Einschränkungen anpasst. Die Leistung wird zu Beginn durch die Off-Chip-Bandbreite begrenzt, aber nach 24 MB wird die Leistung zum Hauptleistungsbegrenzer. Spitzenleistung design ist erreicht an der kreuzung von power und bandbreite kurven. Eine große Lücke zwischen der Spitzenleistung und der Flächenkurve zeigt an, dass ein großer Bereich des Siliziums in GPP aufgrund von Leistungsbeschränkungen nicht für mehr Kerne verwendet werden kann.

Abbildung 3b stellt die Leistung der Designs dar, die Hochleistungstransistoren (HP) für Kerne und niedrige Betriebsleistung (LOP) für den Cache verwenden. In ähnlicher Weise stellt Abbildung 3c die Leistung der Designs mit niedriger Betriebsleistung für beide Kerne und den Cache dar. Designs mit HP-Transistoren können nur 20% der Kerne mit Strom versorgen, die in den Die-Bereich von 20 nm passen. Andererseits liefern Designs mit LOP-Transistoren für den Cache (Abbildung 3c) eine höhere Leistung als Designs mit HP-Transistoren, da sie größere Caches ermöglichen, die ungefähr die doppelte Anzahl von Kernen unterstützen, dh in unserem Fall 35-40% Kerne. LOP-Geräte ergeben eine höhere Energieeffizienz, weil sie geeignet sind, sowohl die Kerne und den Cache zu implementieren.

Daraus können wir schließen, dass das Hochleistungsdesign von Allzweck-Multicore-Prozessoren zu einer großen Fläche dunklen Siliziums führt, wenn Kerne und Caches mit HP-Transistoren gebaut werden. Die Verwendung von LOP-Transistoren reduziert jedoch den dunklen Bereich bis zu einem gewissen Grad, wie zuvor erläutert und in Abbildung 3 gezeigt.

Kernzählungsanalyse: Um die verwendete Anzahl von Kernen zu analysieren, zeigt Abbildung 4a die theoretische Anzahl von Kernen, die auf einen bestimmten Düsenbereich der entsprechenden Technologie passen können, zusammen mit den Kernzählungen der Spitzenleistungsdesigns. Aufgrund von Chipleistungsbeschränkungen wurden HP-basierte Designs nach 2013 unmöglich. Obwohl LOP-basierte Designs einen Weg nach vorne boten, zeigt der hohe Abstand zwischen der Düsenbereichsgrenze und den LOP-Designs an, dass ein zunehmender Anteil der Düsenfläche aufgrund nicht ausgelasteter Kerne dunkel bleibt.

3.2 Spezialisierte Multicore-Prozessoren

Jetzt demonstrieren wir die Spitzenleistungsdesigns mit GPP-, Embedded- (EMB) und Specialized- (SP-) Kernen unter Verwendung von LOP-Transistoren mit einer Fläche von 20 nm.

Eine extreme Anwendung von SP-Kernen wird unter Berücksichtigung einer spezialisierten Computerumgebung bewertet, in der ein Multicore-Chip Hunderte verschiedener anwendungsspezifischer Kerne enthält. Es werden nur die Kerne aktiviert, die für die laufende Anwendung am nützlichsten sind. Der Rest der On-Chip-Kerne bleibt ausgeschaltet. SP kerne design liefert hohe leistung mit weniger aber mehr leistungsstarke kerne. Es wird beobachtet, dass SP-Kerne sehr energieeffizient sind und die GPP- und EMB-Kerne deutlich übertreffen.

Kern Zählt Analyse: Abbildung 4b zeigt die vergleichende Analyse der Kernzahlen für die Spitzenleistungsdesigns über die genannten Kerntypen hinweg. Es zeigt, dass Peak Performance SP-Designs nur 16-32 Kerne verwenden und der Cache einen großen Teil der Chip-Chip-Fläche einnimmt. Low-Core-Count-SP-Designs übertreffen andere Designs mit 99,9% Parallelität. Hochleistungseigenschaften von SP-Kernen steigern die Leistungshüllkurve weiter, als dies mit anderen Kerndesigns möglich ist. SP-Multicores erreichen eine 2- bis 12-fache Beschleunigung gegenüber EMB- und GPP-Multicore-Designs und sind letztendlich durch die begrenzte Off-Chip-Bandbreite eingeschränkt. Ein 3D-Stacked-Speicher wird verwendet, um die Auswirkungen von Bandbreitenbeschränkungen über die Leistungsgrenzen hinaus zu mildern. Die Verwendung von 3D-Stacked-Speicher erhöht die Bandbreitenbeschränkung und führt zu einem hochleistungsfähigen Design mit eingeschränkter Leistung (Abbildung 4c). Die Beseitigung des Engpasses bei der Off-Chip-Bandbreite führt uns zurück zum leistungsbegrenzten Regime mit einem nicht ausgelasteten Die-Bereich (Abbildung 4b). Die Reduzierung der Off-Chip-Bandbreite durch die Kombination von 3D-Speicher mit spezialisierten Kernen verbessert die Beschleunigung um das 3-fache für die 20-nm-Chipgröße und verringert den Druck auf die On-Chip-Cache-Größe. Auf der anderen Seite können GPP- und EMP-Chip-Multiprozessoren nur weniger als 35 Prozent der Leistungsverbesserung erreichen.

Abbildung 4: Core Counts Analyse

4 AKTUELLER STAND DER TECHNIK

Das Phänomen des dunklen Siliziums begann im Jahr 2005. Es war die Zeit, als Prozessordesigner begannen, die Anzahl der Kerne zu erhöhen, um die Skalierung nach dem Mooreschen Gesetz auszunutzen, anstatt die Leistung eines einzelnen Kerns zu verbessern. Als Ergebnis wurde festgestellt, dass sich Moores Gesetz und Dennard-Skala in der Realität umgekehrt verhalten. Die Dennard-Skalierung besagt, dass die Dichte der Transistoren pro Flächeneinheit mit abnehmender Größe konstant bleibt . Zunächst wurden die Aufgaben der Prozessoren in verschiedene Bereiche unterteilt, um eine effiziente Verarbeitung zu erreichen und die Auswirkungen von dunklem Silizium zu minimieren. Diese Aufteilung führte zu den Konzepten von Gleitkommaeinheiten und später wurde erkannt, dass die Aufteilung und Verteilung der Aufgaben des Prozessors unter Verwendung spezialisierter Module auch dazu beitragen könnte, das Problem des dunklen Siliziums zu lindern. Diese spezialisierten Module führten zu einer kleineren Prozessorfläche mit effizienter Taskausführung, die es uns ermöglichte, eine bestimmte Gruppe von Transistoren auszuschalten, bevor eine andere Gruppe gestartet wurde. Die effiziente Verwendung einiger Transistoren in einer Aufgabe ermöglicht es uns, weiterhin funktionierende Transistoren in einem anderen Teil des Prozessors zu haben. Diese Konzepte entwickelten sich zu System-on-Chip- (SoC) und System-in-Chip- (SiC) Prozessoren. Transistoren in Intel-Prozessoren werden je nach Arbeitslast ebenfalls ein- und ausgeschaltet. Das in diesem Bericht diskutierte Multicore-Design erfordert jedoch weitere Untersuchungen, um seine Auswirkungen auf andere SoC- und SiC-Multicore-Prozessoren mit unterschiedlichen Anforderungen an Bandbreite und Temperatur zu erkennen.

5 VERWANDTE ARBEITEN

In diesem Abschnitt werden wir andere Strategien, Techniken oder Trends diskutieren, die in der Literatur über das Phänomen des dunklen Siliziums vorgeschlagen werden.

Jörg Henkel et al. einführung neuer Trends bei dunklem Silizium im Jahr 2015. Die vorliegende Arbeit konzentriert sich auf die thermischen Aspekte von dunklem Silizium. Es wird durch umfangreiche Experimente bewiesen, dass das Gesamtleistungsbudget des Chips nicht der einzige Grund für dunkles Silizium ist, auch die Leistungsdichte und die damit verbundenen thermischen Effekte spielen bei diesem Phänomen eine große Rolle. Daher schlagen sie eine Thermal Safe Power (TSP) für ein effizienteres Energiebudget vor. Ein neuer vorgeschlagener Trend besagt, dass die Berücksichtigung der Spitzentemperaturbeschränkung eine Verringerung des dunklen Bereichs des Siliziums bewirkt. Darüber hinaus wird auch vorgeschlagen, dass die Verwendung einer dynamischen Spannungsfrequenzskalierung die Gesamtsystemleistung erhöht und das dunkle Silizium verringert.

Anil et al. präsentierte 2018 ein Laufzeitressourcenmanagementsystem namens adBoost. Es verwendet eine Dark-Silicon-Aware-Run-Time-Application-Mapping-Strategie, um eine thermische Leistungssteigerung in Multicore-Prozessoren zu erreichen. Es profitiert von der Strukturierung (PAT) von dunklem Silizium. PAT ist eine Mapping-Strategie, die die Temperatur gleichmäßig über den Chip verteilt, um das nutzbare Leistungsbudget zu verbessern. Es bietet niedrigere Temperaturen, ein höheres Leistungsbudget und hält die längeren Boostzeiten aufrecht. Experimente zeigen, dass es im Vergleich zu anderen Leistungsverstärkern auf dem neuesten Stand der Technik einen um 37 Prozent besseren Durchsatz liefert .

Lei Yang et al. schlug 2017 ein thermisches Modell vor, um das grundlegende Problem der Bestimmung der Fähigkeit des On-Chip-Multiprozessorsystems zu lösen, den gewünschten Job auszuführen, indem seine Zuverlässigkeit aufrechterhalten und jeder Kern in einem sicheren Temperaturbereich gehalten wird. Das vorgeschlagene thermische Modell wird zur schnellen Vorhersage der Chiptemperatur verwendet. Es findet die optimale Aufgabe-zu-Kern-Zuordnung, indem es die minimale Chipspitzentemperatur vorhersagt. Wenn die minimale Chipspitzentemperatur irgendwie die sichere Temperaturgrenze überschreitet, reagiert ein neu vorgeschlagener heuristischer Algorithmus, der als Temperature Constrained Task Selection (TCTS) bekannt ist, um die Systemleistung innerhalb einer chipsicheren Temperaturgrenze zu optimieren. Die Optimalität des TCTS-Algorithmus ist formal bewiesen, und umfangreiche Leistungsbewertungen zeigen, dass dieses Modell die Chipspitzentemperatur im Vergleich zu anderen herkömmlichen Techniken um 10 ° C reduziert. Die Gesamtsystemleistung wird unter sicherer Temperaturbegrenzung um 19,8% verbessert. Schließlich wird eine echte Fallstudie durchgeführt, um die Machbarkeit dieser systematischen Technik zu beweisen .

6 FAZIT

Die kontinuierliche Skalierung von Multicore-Prozessoren ist durch Leistungs-, Temperatur- und Bandbreitenbeschränkungen eingeschränkt. Diese Einschränkungen beschränken das herkömmliche Multicore-Design auf eine Skalierung über einige zehn bis wenige hundert Kerne hinaus. Infolgedessen wird ein großer Teil eines Prozessorchips geopfert, damit der Rest des Chips weiterarbeiten kann. Wir haben eine Technik diskutiert, um den ungenutzten Düsenbereich (dunkles Silizium) durch den Bau spezialisierter Multicores wiederzuverwenden. Spezialisierte (SP) Multicores implementieren eine große Anzahl von Workload-spezifischen Kernen und schalten nur die spezifischen Kerne ein, die den Anforderungen des ausführenden Workloads genau entsprechen. Ein detailliertes Modell erster Ordnung wird vorgeschlagen, um das Design von Spikes unter Berücksichtigung aller physikalischen Einschränkungen zu analysieren. Umfangreiche Workload-Experimente im Vergleich zu anderen Allzweck-Multicores werden durchgeführt, um die Leistung des Modells zu analysieren. SP Multicores übertreffen andere Designs um das 2- bis 12-fache. Obwohl SP-Multicores ein ansprechendes Design sind, müssen moderne Workloads charakterisiert werden, um die Rechensegmente zu identifizieren, die als Kandidaten für das Entladen auf spezialisierte Kerne dienen. Darüber hinaus sind Softwareinfrastruktur und Laufzeitumgebung erforderlich, um die Codemigration in der entsprechenden Granularität zu erleichtern.

1965. Moores Gesetz. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Skalierung. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Power Wand. Springer U.S.A., Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Chip-Multiprozessoren für Server-Workloads. betreuer-Babak Falsafi und Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki und Babak Falsafi. 2010. Leistungsskalierung: das ultimative Hindernis für 1k-Core-Chips. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi und Anastasia Ailamaki. 2011. In Richtung dunkles Silizium in Servern. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki und Babak Falsafi. 2007. Datenbankserver auf Chip-Multiprozessoren: Einschränkungen und Möglichkeiten.. In Zeitschrift für SOZIOLOGIE, Vol. 7. Citeseer, 79-87.

Jörg Henkel, Heba Khdr, Santiago Pagani und Muhammad Shafique. 2015. Neue Trends im dunklen Silizium. Im Jahr 2015 52. ACM / EDAC / IEEE Design Automation Conference (DAC). IEEE, 1-6.

Mark D Hill und Michael R Marty. 2008. Amdahls Gesetz in der Multicore-Ära. Computer 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen und Chao Chen. 2018. Chiptemperaturoptimierung für Many-Core-Systeme aus dunklem Silizium. IEEE-Transaktionen zum computergestützten Design integrierter Schaltungen und Systeme 37, 5 (2018), 941-953.

Amir M Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: Thermisch bewusste Leistungssteigerung durch dunkle Silizium-Strukturierung. In: IEEE Trans. In: Comput. 67, 8 (2018), 1062–1077.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.

lg