foto af Harrison Broadbent på Unsplash

denne rapport opsummerer de teknologiske tendenser, der giver anledning til fænomenet mørkt silicium, dets indvirkning på serverne og et forsøg på at bremse dem baseret på forskningspapiret, der blev offentliggjort i 2011 af Hardavellas et al. Serverchips skaleres ikke ud over en bestemt grænse. Som et resultat forbliver en stigende del af chippen slukket, kendt som mørkt silicium, som vi ikke har råd til at drive. Specialiserede multi-core processorer kan gøre brug af rigeligt, underudnyttet og strømbegrænset dørområde ved at levere forskellige applikationsspecifikke heterogene kerner for at forbedre serverens ydeevne og energieffektivitet.

Data vokser med en eksponentiel hastighed. Det kræver beregningsenergi at behandle og udføre beregninger. Det er blevet observeret, at data vokser hurtigere end Moores lov . Moores lov siger, at computerens ydeevne, CPU-clockhastighed og antallet af transistorer pr. Der kræves en hidtil uset mængde beregningsenergi for at klare denne udfordring. Det er tilstrækkeligt at få en ide om energibehovet ved et eksempel på, at 1000m2 datacenter er 1,5 MVH. I dag bruges multicore-processorer til at behandle disse data. Det antages, at systemets ydeevne er direkte proportional med antallet af tilgængelige kerner. Denne tro er imidlertid ikke sand, fordi ydeevne ikke følger Moores lov. I virkeligheden er ydeevnen meget langsommere end de forventede resultater på grund af nogle fysiske begrænsninger såsom båndbredde, strøm og termiske grænser, som vist i figur 1.

Figur 1: fysiske begrænsninger

det observeres, at off-chip båndbredde vokser langsomt. Som et resultat kan kerner ikke fodres med data hurtigt nok. En stigning i antallet af transistorer reducerer ikke spændingen hurtigt nok. En stigning på 10 gange i transistorer resulterede kun i et spændingsfald på 30% i det sidste årti. Tilsvarende er strømmen begrænset af kølegrænser, da køling slet ikke skaleres. For at brænde multicore-revolutionen vokser antallet af transistorer på chippen eksponentielt. Chip, hvilket bare ikke er muligt på grund af de fysiske begrænsninger, der er forklaret tidligere. Som et resultat efterlades et eksponentielt stort område af chippen uudnyttet, kendt som mørkt silicium.

det mørke siliciumområde vokser eksponentielt, som det fremgår af trendlinjen i figur 2. I denne graf er matricen størrelsen af peak performance for de forskellige arbejdsbyrder plottet med tiden. I enkle ord kan vi kun bruge en brøkdel af de transistorer, der er tilgængelige på en stor chip, og resten af transistorerne forbliver slukket.

figur 2: Die størrelse trend

nu opstår der et spørgsmål, skal vi spilde dette store uudnyttede mørke område af chippen? Hardavellas et al. repurposed mørk silicium til chip multiprocessorer (CMP ‘ er) ved at bygge et hav af specialiserede heterogene applikationsspecifikke kerner. Disse specialiserede kerner aktiverer kun nogle få udvalgte kerner, der er designet eksplicit til den givne arbejdsbyrde. De fleste af disse applikationskerner forbliver deaktiverede/mørke, når de ikke er i brug.

fordele ved specialiserede kerner: specialiserede kerner er bedre end de konventionelle kerner, fordi de eliminerer omkostninger. For at få adgang til et stykke data fra den lokale hukommelse kræver L2-cache og hovedhukommelsen henholdsvis 50 pJ, 256-1000 pJ og næsten 16000 PJ energi. Disse omkostninger hører til generel databehandling, mens en omhyggeligt designet specialkerne kan eliminere de fleste af disse omkostninger. Specialiserede kerner forbedrer den samlede ydeevne og energieffektivitet af serverarbejdsbelastninger ved at afbøde effekten af fysiske begrænsninger.

1.1 metodologi

for at vurdere omfanget af mørkt silicium er det afgørende i fællesskab at optimere et stort antal designparametre til at komponere CMP ‘ er, der er i stand til at opnå maksimal ydeevne, mens de holder sig inden for de fysiske begrænsninger. Derfor udvikler vi førsteordens analytiske modeller ved at optimere processorens hovedkomponenter, såsom forsyning & tærskelspænding, klokfrekvens, cache-størrelse, hukommelseshierarki og kernetælling. Målet med de analytiske modeller er at udlede peak performance design og beskrive processorens fysiske begrænsninger. Detaljerede parameteriserede modeller er konstrueret i henhold til ITRS* standarder. Disse modeller hjælper med at udforske multicores designrum. Bemærk, at disse modeller ikke foreslår det absolutte antal kerner eller cache-størrelse, der kræves for at opnå den maksimale ydelse i processorerne. I stedet er de analytiske modeller, der foreslås for at fange de første ordens effekter af teknologiskalering for at afdække de tendenser, der fører til mørkt silicium. Udførelsen af disse modeller måles i form af aggregeret server gennemstrømning, og modellen undersøges autonomt i heterogen computing.

for at konstruere sådanne modeller har vi foretaget nogle designkonfigurationsvalg for udstyr, båndbredde, teknologi, strøm og områdemodeller, som beskrevet i det næste afsnit i detaljer.

2.1 udstyrsmodel

CMP ‘ er er bygget over tre typer kerner, dvs.generelle formål (GPP), indlejret (EMB) og specialiseret (SP). GPP ‘ er er skalære i rækkefølge fire-vejs flertrådede kerner og giver høj gennemstrømning i et servermiljø ved at opnå 1,7 gange mere speedup over en enkelttrådet kerne . EMB-kerner repræsenterer et magtbevidst designparadigme, og de ligner GPP-kerner i ydeevne. Specialiserede kerner er CMP ‘ er med specialudstyr, f.eks. GPU, digitale signalprocessorer og feltprogrammerbare portarrays. Kun disse komponenter vil tænde, som er bedst egnet til den givne arbejdsbyrde til enhver tid instans. SP-kerner overgår GPP-kerner 20 gange med 10 gange mindre strøm.

2.2 teknologi Model

CMP ‘ er er modelleret på tværs af 65nm, 45nm, 32nm og 20nm fabrikationsteknologier efter ITRS-fremskrivninger. Transistorer med en høj tærskelspænding Vth er bedst til at evaluere sænkning af lækstrøm. Derfor bruges høje Vth-transistorer til at afbøde effekten af kraftvæggen . CMP ‘ er med højtydende transistorer til hele chippen, LOP (lav driftsstyrke) til cachen og LOP transistorer til hele chippen bruges til at udforske modelens egenskaber og opførsel.

2.3 Arealmodel

modellen begrænser matriceområdet til 310mm2. Interconnect og system-on-chip komponenter optager 28% af området, og resten af 72% er for kerner og cache. Vi kan estimere kerneområder ved at skalere eksisterende design for hver type kerne i henhold til ITRS-standarder. UltraSPARC T1 core er skaleret til GPP-kerner og ARM11 til EMB-og SP-kerner.

2.4 præstationsmodel

Amdahls lov er grundlaget for præstationsmodellen. Det antager 99% applikationsparallelisme. Udførelsen af en enkelt kerne beregnes ved at aggregere UIPC (brugervejledning begået pr. UIPCis beregnet i form af hukommelse adgang tid givet af følgende formel:

AverageMemoryAccessTime = HitTime + MissRate LARP MissPenalty

UIPC er proportional med det samlede system gennemløb. Detaljerede formler, afledninger og beregninger af præstationsmodellen er tilgængelige på .

2.5 L2 cache miss rate og datasæt evolution modeller

estimering af cache miss rate for den givne arbejdsbyrde er vigtig, da den spiller en styrende rolle i ydeevnen. L2 cache af størrelse mellem 256kb og 64MB er kurve-monteret ved hjælp af empiriske målinger til at estimere cache miss rate. X-skiftet magt lov
y = α (x + β )^γ giver den bedste pasform for vores data med kun 1,3% af den gennemsnitlige fejlprocent. Miss-rate skaleringsformler er angivet med detaljer i dette arbejde .

2.6 off-chip båndbredde Model

Chip båndbredde krav er modelleret ved estimering af off-chip aktivitetshastighed, dvs.klokfrekvens og kerneydelse. Off-chip båndbredde er proportional med L2 miss rate, core count og core activity. Den maksimale tilgængelige båndbredde er givet ved summen af antallet af puder og maksimale off-chip ure. I vores model behandler vi 3D-stablet hukommelse som en stor L3-cache på grund af dens høje kapacitet og høje båndbredde. Hvert lag af 3D stablet hukommelse er 8 Gbits på 45nm teknologi. Energiforbruget for hvert lag er i værste fald 3, 7 vand. Vi modellerer 8 lag med en samlet kapacitet på 8 GBytes og et ekstra lag til kontrollogik. Tilsætningen af 9 lag hæver chippetemperaturen til 10 liter C. Ikke desto mindre tegner vi os for strømafledning for at imødegå disse effekter. Vi estimerer, at 3D-stabling vil forbedre hukommelsesadgangstiden med 32.5% fordi det gør kommunikationen mellem kernerne og 3D-hukommelsen meget effektiv.

2.7 strømmodel

samlet chipeffekt beregnes ved at tilføje den statiske og dynamiske effekt for hver komponent, såsom kerne, cache, I/O, interconnect osv. Vi bruger ITRS-data til at styre den maksimale tilgængelige effekt til luftkølede chips med køleplader. Vores model tager maksimale effektgrænser som input og kasserer alt CMPs-design, der overskrider de definerede effektgrænser. Flydende køleteknologier kan øge den maksimale effekt vi er dog endnu ikke lykkedes at anvende termiske kølemetoder i kerner. Den dynamiske effekt af N-kerner og L2-cache beregnes ved hjælp af formlerne nævnt i papiret med detaljer.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

figur 3: ydelse af generelle formål (GPP) chip multiprocessorer

3 Analyse

efter design skal vi demonstrere brugen af vores analytiske modeller. Vi vil undersøge peak performance design af generelle formål og specialiserede multicore processorer i de næste to underafsnit. Desuden vil vi også evaluere kernetællingerne for disse designs og afslutte ved sammenlignende analyse.

3.1 generelle formål multicore processorer

vi begynder med at forklare udviklingen af vores peak performance design-rumforskning algoritme af resultaterne vist i figur 3. Figur 3a repræsenterer ydeevnen for en 20nm GPP CMPs, der kører Apache ved hjælp af højtydende (HP) transistorer til både kerner og cache. Grafen repræsenterer den samlede chipydelse som en funktion af L2-cachestørrelsen. Det betyder, at en brøkdel af matriceområdet er dedikeret til L2-cachen (repræsenteret i MB på h-aksen).

Områdekurve viser designets ydeevne med ubegrænset strøm og off-chip båndbredde, men har begrænset on-chip dørområde. Større cache færre kerner. Selvom et par antal kerner passer på det resterende dørområde, udfører hver kerne det bedste på grund af den høje hitrate for den større cache. Ydelsesfordelen opnås ved at øge L2-cachen indtil 64 MB. Herefter opvejes det af omkostningerne ved yderligere at reducere antallet af kerner.

effektkurve viser ydeevnen for designet, der kører med den maksimale frekvens med begrænset effekt på grund af luftkølebegrænsning, men har ubegrænset off-chip båndbredde og areal. Strømbegrænsningen begrænser den samlede chipydelse, fordi kørsel af kernerne ved den maksimale frekvens kræver en hidtil uset mængde energi, som kun begrænser designet til meget få kerner.

Båndbreddekurve repræsenterer udførelsen af designet, der kører med et ubegrænset strøm-og dørområde med begrænset off-chip båndbredde. Et sådant design reducerer off-chip båndbredde pres på grund af den større tilgængelige cache størrelse og forbedrer ydeevnen. Område + effektkurve repræsenterer udførelsen af designet begrænset i strøm og område, men ubegrænset off-chip båndbredde. Et sådant design optimerer i fællesskab frekvensen og spændingen af kernerne ved at vælge peak performance design for hver L2 cache størrelse.

Peak performance curve repræsenterer multicore-designet, der tilpasser sig alle de fysiske begrænsninger. Ydeevnen er begrænset af off-chip båndbredde i starten, men efter 24 MB strøm bliver den vigtigste ydelsesbegrænser. Peak performance design opnås ved skæringspunktet mellem strøm-og båndbreddekurver. Et stort mellemrum mellem toppræstation og områdekurve indikerer, at et stort område af silicium i GPP ikke kan bruges til flere kerner på grund af strømbegrænsninger.

figur 3b repræsenterer udførelsen af de designs, der bruger højtydende (HP) transistorer til kerner og lav operationel effekt (LOP) til cachen. På samme måde repræsenterer figur 3c udførelsen af designene med lav driftskraft for både kerner og cache. Design, der bruger HP-transistorer, kan kun tænde 20% af kernerne, der passer i matriceområdet på 20 nm. På den anden side giver design, der bruger LOP-transistorer til cachen (figur 3c) højere ydelse end design, der bruger HP-transistorer, fordi de muliggør større cacher, der understøtter cirka det dobbelte af antallet af kerner, dvs.35-40% kerner i vores tilfælde. LOP enheder giver højere energieffektivitet, fordi de er egnede til at gennemføre både kernerne og cachen.

derfor kan vi konkludere, at peak performance design, der tilbydes af generelle formål multicore processorer resulterer i et stort område af mørk silicium, når kerner og cacher er bygget med HP transistorer. Men at gøre brug af LOP transistorer reducerer det mørke område op til en vis grad som forklaret tidligere og vist i figur 3.

Kernetællingsanalyse: for at analysere det anvendte antal kerner tegner figur 4a det teoretiske antal kerner, der kan passe på et specificeret matriceområde af den tilsvarende teknologi sammen med kernetællinger af peak performance-design. På grund af chipeffektgrænser blev HP-baserede designs umulige efter 2013. Selvom LOP-baserede designs gav en vej fremad, det høje mellemrum, der er vist mellem matricearealgrænsen og LOP-design, indikerer, at en stigende brøkdel af matricearealet forbliver mørkt på grund af underudnyttede kerner.

3.2 specialiserede multicore processorer

nu demonstrerer vi peak performance design ved hjælp af GPP, embedded (EMB) og specialiserede (SP) kerner ved hjælp af LOP transistorer med die areal på 20 nm.

en ekstrem anvendelse af SP-kerner evalueres ved at overveje et specialiseret computermiljø, hvor en multicore-chip indeholder hundreder af forskellige applikationsspecifikke kerner. Kun de kerner aktiveres, som er mest nyttige til den kørende applikation. Resten af On-chip-kernerne forbliver slukket. SP cores design leverer høj ydeevne med færre, men mere kraftfulde kerner. Det bemærkes, at SP-kerner er meget effektive, og de overgår væsentligt GPP-og EMB-kernerne.

Kernetællingsanalyse: Figur 4b viser den sammenlignende analyse af kernetællinger for de højeste udførende designs på tværs af de nævnte kernetyper. Det viser, at peak performance SP-design kun anvender 16-32 kerner, og cache optager en stor del af die chip-området. Sp-design med lav kerne-tæller overgår andre designs med 99,9% parallelisme. Højtydende egenskaber ved SP-kerner øger strømhylsteret yderligere, end det er muligt med andre kernedesigner. SP multicore opnår 2 til 12 hastigheder over EMB og GPP multicore design og er i sidste ende begrænset af den begrænsede off-chip båndbredde. En 3D-stablet hukommelse bruges til at afbøde effekten af båndbreddebegrænsninger ud over strømgrænserne. Brugen af 3D-stablet hukommelse skubber båndbreddebegrænsningen og fører til et højtydende strømbegrænset design (figur 4c). Eliminering af off-chip båndbredde flaskehals fører os tilbage til det strømbegrænsede regime med et underudnyttet dørområde (figur 4b). Reduktion af off-chip båndbredde ved at kombinere 3D-hukommelse med specialiserede kerner forbedrer speedup med 3 gange for 20nm die størrelse og reducerer trykket på On-chip cache størrelse. På den anden side kan GPP og EMP chip multiprocessorer kun opnå mindre end 35 procent af præstationsforbedringen.

figur 4: Kernetællingsanalyse

4 nuværende STATE-of-the-ART

fænomenet mørkt silicium startede i 2005. Det var det tidspunkt, hvor processordesignere begyndte at øge kernetællingen for at udnytte Moores Lovskalering snarere end at forbedre en enkeltkerneydelse. Som følge heraf blev det konstateret, at Moores lov og Dennard skalering opfører sig omvendt i virkeligheden. Arealenhed forbliver konstant med et fald i dens størrelse . I første omgang blev processorernes opgaver opdelt i forskellige områder for at opnå effektiv behandling og minimere virkningen af mørkt silicium. Denne opdeling førte til begreberne flydende enheder, og senere blev det indset, at opdeling og distribution af processorens opgaver ved hjælp af specialiserede moduler også kunne bidrage til at afhjælpe problemet med mørkt silicium. Disse specialiserede moduler resulterede i et mindre processorområde med effektiv opgaveudførelse, som gjorde det muligt for os at slukke for en bestemt gruppe transistorer, før vi startede en anden gruppe. Brugen af et par transistorer på en effektiv måde i en opgave giver os mulighed for at fortsætte med at arbejde transistorer i en anden del af processoren. Disse begreber avancerede til System på Chip (SoC) og System I Chip (SiC) processorer. Transistorer i Intel-processorer tændes/slukkes også i henhold til arbejdsbyrden. Imidlertid kræver specialiseret multicore-design, der diskuteres i denne rapport, yderligere forskning for at realisere dens indvirkning på andre SoC-og SiC-multicore-processorer, der har forskellige krav til båndbredde og temperatur.

5 relateret arbejde

i dette afsnit vil vi diskutere andre strategier, teknikker eller tendenser foreslået i litteraturen om fænomenet mørkt silicium.

Jorg Henkel et al. introducerede nye tendenser inden for mørkt silicium i 2015. Det præsenterede papir fokuserer på de termiske aspekter af mørkt silicium. Det er bevist ved omfattende eksperimenter, at chip ‘ s samlede effektbudget ikke er den eneste grund bag mørkt silicium, effekttæthed og relaterede termiske effekter spiller også en vigtig rolle i dette fænomen. Derfor foreslår de en termisk sikker strøm (TSP) til et mere effektivt strømbudget. En ny foreslået tendens siger, at overvejelse af toptemperaturbegrænsning giver en reduktion i siliciumets mørke område. Desuden foreslås det også, at brugen af dynamisk Spændingsfrekvensskalering øger den samlede systemydelse og reducerer det mørke silicium .

Anil et al. præsenteret et run-time resource management system i 2018 kendt som adBoost. Det anvender mørk silicium bevidst run-time ansøgning kortlægning strategi for at opnå termisk bevidst ydeevne boosting i multicore processorer. Det nyder godt af mønster (PAT) af mørkt silicium. PAT er en kortlægningsstrategi, der jævnt fordeler temperaturen over chippen for at forbedre det udnyttelige strømbudget. Det giver lavere temperaturer, højere magt budget, og opretholder de mere længere perioder med boosting. Eksperimenter viser, at det giver 37 procent bedre gennemstrømning sammenlignet med andre avancerede præstationsforstærkere .

Lei Yang et al. foreslog en termisk model i 2017 for at løse det grundlæggende problem med at bestemme muligheden for on-chip multiprocessorsystemet til at køre det ønskede job ved at opretholde dets pålidelighed og holde hver kerne inden for et sikkert temperaturområde. Den foreslåede termiske model bruges til hurtig Chip temperatur forudsigelse. Den finder den optimale opgave-til-kerne-opgave ved at forudsige den minimale chip-spidstemperatur. Hvis den minimale chip-spidstemperatur på en eller anden måde overstiger den sikre temperaturgrænse, reagerer en nyligt foreslået heuristisk algoritme kendt som temperaturbegrænset opgavevalg (TCTS) for at optimere systemets ydeevne inden for en chip-sikker temperaturgrænse. Optimalitet af TCTS-algoritmen er formelt bevist, og omfattende præstationsevalueringer viser, at denne model reducerer chip-spidstemperaturen med 10 liter C sammenlignet med andre traditionelle teknikker. Den samlede systemydelse forbedres med 19,8% under sikker temperaturbegrænsning. Endelig gennemføres en reel casestudie for at bevise gennemførligheden af denne systematiske teknik .

6 konklusion

kontinuerlig skalering af multicore-processorer er begrænset af strøm -, temperatur-og båndbreddebegrænsninger. Disse begrænsninger begrænser det konventionelle multicore-design til kun at skalere ud over et par tiere til lave hundreder af kerner. Som et resultat ofrer en stor del af en processorchip for at gøre det muligt for resten af chippen at fortsætte med at arbejde. Vi har diskuteret en teknik til at genbruge det ubrugte dørområde (mørkt silicium) ved at konstruere specialiserede multicores. Specialiserede (SP) multicores implementerer et stort antal arbejdsbyrde-specifikke kerner og tænder kun de specifikke kerner, der har et tæt match med kravene til den udførende arbejdsbyrde. En detaljeret førsteordens model foreslås at analysere designet af SP multicores ved at overveje alle de fysiske begrænsninger. Omfattende arbejdsbelastningseksperimenter i sammenligning med andre generelle formål multicores udføres for at analysere modelens ydeevne. SP multicores overgår andre designs med 2 gange til 12 gange. Selvom SP multicores er et tiltalende design, skal Moderne arbejdsbelastninger karakteriseres for at identificere de beregningssegmenter, der tjener som kandidater til off-loading til specialiserede kerner. Desuden er programmelinfrastruktur og driftstidsmiljø også påkrævet for at lette kodemigrationen med den passende granularitet.

1965. Moores lov. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Skalering. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Magt Væg. Springer US, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Chip multiprocessorer til server arbejdsbyrder. supervisors-Babak Falsafi og Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki og Babak Falsafi. 2010. Effekt skalering: den ultimative hindring for 1k-core chips. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi og Anastasia ailamaki. 2011. Mod mørk silicium i servere. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki og Babak Falsafi. 2007. Databaseservere på Chip multiprocessorer: begrænsninger og muligheder.. I CIDR, Vol. 7. Citeseer, 79-87.

J. R. Henkel, Heba Khdr, Santiago Pagani og Muhammad Shafik. 2015. Nye tendenser inden for mørkt silicium. I 2015 52. ACM/EDAC / IEEE Design Automation Conference (DAC). IEEE, 1-6.

Mark d Hill og Michael R Marty. 2008. Amdahls lov i multicore-æraen. Computer 41, 7 (2008), 33-38.

Mengu Liu, Lei Yang, Peng Chen og Chao Chen. 2018. Chip temperatur optimering til mørke silicium mange-core systemer. IEEE-transaktioner vedrørende computerstøttet Design af integrerede kredsløb og systemer 37, 5 (2018), 941-953.

Amir m Rahmani, Muhammad Shafik, aksel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: termisk bevidst ydeevne Boosting gennem Mørk silicium mønster. IEEE Trans. Comput. 67, 8 (2018), 1062–1077.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.

lg