foto av Harrison Broadbent på Unsplash

denna rapport sammanfattar de tekniska trenderna som ger upphov till fenomenet mörkt kisel, dess inverkan på servrarna och ett försök att begränsa dem baserat på forskningspapper som publicerades 2011 av Hardavellas et al. Serverchips skala inte över en viss gräns. Som ett resultat förblir en ökande del av chipet avstängd, känd som mörk kisel, som vi inte har råd att driva. Specialiserade processorer med flera kärnor kan använda sig av rikligt, underutnyttjat och kraftbegränsat matrisområde genom att tillhandahålla olika applikationsspecifika heterogena kärnor för att förbättra serverns prestanda och energieffektivitet.

Data växer exponentiellt. Det kräver beräkningsenergi för att bearbeta och utföra beräkningar. Det har observerats att data växer snabbare än Moores lag . Moores lag säger att datorns prestanda, CPU-klockhastighet och antalet transistorer per chip kommer att fördubblas vartannat år. En aldrig tidigare skådad mängd beräkningsenergi krävs för att klara av denna utmaning. Det räcker att få en uppfattning om energibehovet med ett exempel på att 1000m2 datacenter är 1,5 MW. Numera används multicore-processorer för att bearbeta dessa data. Man tror att systemets prestanda är direkt proportionell mot antalet tillgängliga kärnor. Men denna tro är inte sant eftersom prestanda inte följer Moores lag. I verkligheten är prestandan mycket långsammare än de förväntade resultaten på grund av vissa fysiska begränsningar som bandbredd, kraft och termiska gränser, som visas i Figur 1.

Figur 1: fysiska begränsningar

det observeras att off-chip bandbredd växer långsamt. Som ett resultat kan kärnor inte matas med data tillräckligt snabbt. En ökning av antalet transistorer minskar inte spänningen tillräckligt snabbt. En 10x ökning av transistorer resulterade i endast 30% spänningsfall under det senaste decenniet. På samma sätt begränsas kraften av kylgränser, eftersom kylning inte skala alls. För att driva multicore-revolutionen växer antalet transistorer på chipet exponentiellt. Att driva alla transistorer samtidigt kräver emellertid exponentiellt mer effekt per chip, vilket bara inte är möjligt på grund av de fysiska begränsningarna som förklarats tidigare. Som ett resultat lämnas ett exponentiellt stort område av chipet outnyttjat, känt som mörkt kisel.

det mörka kiselområdet växer exponentiellt, vilket visas av trendlinjen i Figur 2. I denna graf plottas formstorleken för topprestandan för de olika arbetsbelastningarna med tiden. I enkla ord kan vi bara använda en bråkdel av transistorerna som finns på ett stort chip, och resten av transistorerna förblir avstängda.

Figur 2: Die size trend

nu uppstår en fråga, Ska vi slösa bort detta stora outnyttjade mörka område av chipet? Hardavellas et al. repurposed mörk kisel för chip multiprocessorer (CMPs) genom att bygga ett hav av specialiserade heterogena applikationsspecifika kärnor. Dessa specialiserade kärnor dynamiskt driva upp endast ett fåtal utvalda kärnor utformade uttryckligen för den givna arbetsbelastningen. De flesta av dessa applikationskärnor förblir att inaktivera/mörka när de inte används.

fördelar med specialiserade kärnor: specialiserade kärnor är bättre än de konventionella kärnorna eftersom de eliminerar omkostnader. Till exempel, för att komma åt en bit data från det lokala minnet, L2-cache, och huvudminnet kräver 50 pJ, 256-1000 pJ, och nästan 16000 PJ energi, respektive. Dessa omkostnader tillhör allmänt ändamål computing, medan en noggrant utformad specialiserad kärna kan eliminera de flesta av dessa omkostnader. Specialiserade kärnor förbättrar aggregerad prestanda och energieffektivitet för serverbelastningar genom att mildra effekten av fysiska begränsningar.

1.1 metodik

för att bedöma omfattningen av mörkt kisel är det avgörande att gemensamt optimera ett stort antal designparametrar för att komponera CMP som kan uppnå topprestanda medan de håller sig inom de fysiska begränsningarna. Därför utvecklar vi första ordningens analytiska modeller genom att optimera processorns huvudkomponenter, såsom tillförsel & tröskelspänning, klockfrekvens, cachestorlek, minneshierarki och kärnantal. Målet med de analytiska modellerna är att härleda toppprestanda och beskriva processorns fysiska begränsningar. Detaljerade parametriserade modeller är konstruerade enligt ITRS* – standarder. Dessa modeller hjälper till att utforska multicores designutrymme. Observera att dessa modeller inte föreslår det absoluta antalet kärnor eller cachestorlek som krävs för att uppnå topprestanda i processorerna. Istället är de analytiska modeller som föreslås för att fånga första ordningens effekter av teknikskalning för att avslöja trenderna som leder till mörkt kisel. Prestandan hos dessa modeller mäts i termer av aggregerad servergenomströmning, och modellen undersöks autonomt i heterogen databehandling.

för att konstruera sådana modeller har vi gjort några designkonfigurationsval för hårdvara, bandbredd, teknik, kraft och områdesmodeller, som beskrivs i nästa avsnitt i detalj.

2.1 Hårdvarumodell

CMP är byggda över tre typer av kärnor, dvs allmänt ändamål (GPP), inbäddad (EMB) och specialiserad (SP). GPP: er är skalära i ordning fyrvägs flertrådade kärnor och ger hög genomströmning i en servermiljö genom att uppnå 1,7 x mer hastighet över en enkelgängad kärna . EMB-kärnor representerar ett kraftmedvetet designparadigm, och de liknar GPP-kärnor i prestanda. Specialiserade kärnor är CMP med specialiserad hårdvara, t.ex. GPU, digitala signalprocessorer och fältprogrammerbara grindarrayer. Endast de hårdvarukomponenter kommer powerup, som är bäst lämpade för den givna arbetsbelastningen när som helst instans. SP-kärnor överträffar GPP-kärnor 20x med 10x mindre ström.

2.2-Teknikmodell

CMP: er modelleras över 65 nm, 45 nm, 32 nm och 20 nm tillverkningsteknik efter ITRS-prognoser. Transistorer med hög tröskelspänning Vth är bäst att utvärdera sänkning av läckströmmen. Därför används höga VTH-transistorer för att mildra effekten av kraftväggen . CMPs med högpresterande transistorer för hela chipet, LOP (låg driftseffekt) för cachen och LOP-transistorer för hela chipet används för att utforska modellens egenskaper och beteende.

2.3 Area Model

modellen begränsar formområdet till 310mm2. Interconnect och system-on-chip-komponenter upptar 28% av området, och resten av 72% är för kärnor och cache. Vi kan uppskatta kärnområden genom att skala befintliga mönster för varje typ av kärna enligt ITRS-standarder. UltraSPARC T1 kärna skalas för GPP kärnor och ARM11 för EMB och SP kärnor.

2.4 prestandamodell

Amdahls lag är grunden för prestandamodellen. Det förutsätter 99% ansökan parallellitet. Prestandan för en enda kärna beräknas genom att aggregera UIPC (användarinstruktioner som begås per cykel). Uipcis beräknas i termer av minnesåtkomsttid som ges av följande formel:

AverageMemoryAccessTime = HitTime + MissRate Bisexuell MissPenalty

UIPC är proportionell mot den totala systemgenomströmningen. Detaljerade formler, härledningar och beräkningar av prestandamodellen finns på .

2.5 L2 cache miss rate och data-set evolution modeller

uppskatta cache miss rate för den givna arbetsbelastningen är viktigt eftersom det spelar en styrande roll i prestanda. L2-cache av storlek mellan 256kb och 64MB är kurvmonterad med empiriska mätningar för att uppskatta cache-missfrekvensen. X-flyttas makten lag
y = α (x + β )^γ ger den bästa passform för våra data med endast 1,3% genomsnittlig felfrekvens. Felfrekvensskalningsformler listas med detaljer i det här arbetet .

2.6 off-chip bandbredd Modell

Chip bandbredd krav modelleras genom uppskattning av off-chip aktivitet hastighet, dvs klockfrekvens och kärn prestanda. Off-chip bandbredd är proportionell mot L2 misshastighet, kärnantal och kärnaktivitet. Den maximala tillgängliga bandbredden ges av summan av antalet dynor och maximala off-chip-klockor. I vår modell behandlar vi 3D-staplat minne som en stor L3-cache på grund av dess höga kapacitet och hög bandbredd. Varje lager av 3D-staplat minne är 8 Gbits vid 45nm-teknik. Energiförbrukningen för varje lager är i värsta fall 3, 7 Watt. Vi modellerar 8 lager med en total kapacitet på 8 Gbyte och ett extra lager för kontrolllogik. Tillsatsen av 9 lager höjer chiptemperaturen till 10 C. ändå står vi för strömavledning för att motverka dessa effekter. Vi uppskattar att 3D-stapling kommer att förbättra minnesåtkomsttiden med 32.5% eftersom det gör kommunikationen mellan kärnorna och 3D-minnet mycket effektivt.

2.7 Effektmodell

Total chipeffekt beräknas genom att lägga till statisk och dynamisk effekt för varje komponent, såsom kärna, cache, I/O, sammankoppling etc. Vi använder ITRS-data för att hantera maximal tillgänglig effekt för luftkylda chips med kylflänsar. Vår modell tar maximala effektgränser som ingång och kommer att kassera alla CMPs-konstruktioner som överskrider de definierade effektgränserna. Vätskekylteknik kan öka maximal effekt men vi har ännu inte lyckats tillämpa termiska kylmetoder i kärnor. Den dynamiska kraften hos n-kärnor och L2-cache beräknas med hjälp av formlerna som nämns i papperet med detaljer.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Figur 3: prestanda för allmänna ändamål (GPP) chip multiprocessorer

3 analys

efter design måste vi visa användningen av våra analytiska modeller. Vi kommer att undersöka topprestandadesignerna för generella och specialiserade multicore-processorer i de kommande två underavsnitten. Dessutom kommer vi också att utvärdera kärnantalet för dessa mönster och avsluta med jämförande analys.

3.1 multicore-processorer för allmänna ändamål

vi börjar med att förklara utvecklingen av vår peak performance design-space exploration-algoritm med resultaten som visas i Figur 3. Figur 3a representerar prestandan hos en 20nm GPP CMP som kör Apache med högpresterande (HP) transistorer för både kärnor och cache. Grafen representerar den sammanlagda chipprestanda som en funktion av L2-cachestorleken. Det betyder att en bråkdel av formområdet är tillägnad L2-cachen (representerad i MB på x-axeln).

Area curve visar designens prestanda med obegränsad effekt och off-chip bandbredd men har begränsat on-chip die-område. Större cache färre kärnor. Även om några få kärnor passar på det återstående formområdet, presterar varje kärna bäst på grund av den höga träfffrekvensen för den större cachen. Prestandafördelen uppnås genom att öka L2-cachen till 64 MB. Därefter uppvägs det av kostnaden för att ytterligare minska antalet kärnor.

effektkurva visar prestanda hos konstruktionen som körs vid maximal frekvens med begränsad effekt på grund av luftkylningsbegränsning men har obegränsad bandbredd och area utanför chip. Effektbegränsningen begränsar aggregerad chipprestanda eftersom körning av kärnorna vid maximal frekvens kräver en aldrig tidigare skådad mängd energi som begränsar designen till endast några få kärnor.

Bandbreddskurva representerar prestandan hos designen som körs med obegränsad effekt och dö område med begränsad off-chip bandbredd. Sådan design minskar off-chip bandbreddstrycket på grund av den större tillgängliga cachestorleken och förbättrar prestanda. Area + Power curve representerar prestanda för designen begränsad i kraft och område men obegränsad off-chip bandbredd. Sådan design optimerar gemensamt frekvensen och spänningen hos kärnorna genom att välja toppprestanda för varje L2-cachestorlek.

Peak performance curve representerar multicore-designen som anpassar sig till alla fysiska begränsningar. Prestanda begränsas av off-chip bandbredd i början men efter 24 MB ström blir den viktigaste prestandabegränsaren. Peak performance design uppnås vid skärningspunkten mellan kraft-och bandbreddskurvor. Ett stort gap mellan toppprestanda och områdeskurva indikerar att ett stort område av kisel i GPP inte kan användas för fler kärnor på grund av effektbegränsningar.

figur 3b representerar prestandan hos de konstruktioner som använder högpresterande (HP) transistorer för kärnor och låg operativ effekt (LOP) för cachen. På samma sätt representerar figur 3c prestandan hos konstruktionerna med låg driftseffekt för både kärnor och cachen. Konstruktioner som använder HP-transistorer kan driva upp endast 20% av kärnorna som passar i formområdet på 20 nm. Å andra sidan ger mönster som använder LOP-transistorer för cachen (figur 3C) högre prestanda än mönster som använder HP-transistorer eftersom de möjliggör större cachar som stöder ungefär dubbelt så många kärnor, dvs 35-40% kärnor i vårt fall. LOP-enheter ger högre energieffektivitet eftersom de är lämpliga för att implementera både kärnorna och cachen.

därför kan vi dra slutsatsen att toppprestanda som erbjuds av multicore-processorer för allmänna ändamål resulterar i ett stort område av mörkt kisel när kärnor och cachar är byggda med HP-transistorer. Att använda sig av LOP-transistorer minskar emellertid det mörka området upp till viss del som förklarats tidigare och visas i Figur 3.

Kärnräkningsanalys: för att analysera det utnyttjade antalet kärnor plottar figur 4a det teoretiska antalet kärnor som kan passa på ett specificerat matrisområde för motsvarande teknik tillsammans med kärnantal av toppprestanda. På grund av chipströmgränser blev HP-baserade mönster omöjliga efter 2013. Även om LOP-baserade mönster gav en väg framåt, indikerar det höga gapet som visas mellan gränsen för formområdet och LOP-mönster att en ökande bråkdel av formområdet kommer att förbli mörkt på grund av underutnyttjade kärnor.

3.2 specialiserade flerkärniga processorer

nu visar vi toppprestandakonstruktionerna med GPP, inbäddade (EMB) och specialiserade (SP) kärnor med hjälp av LOP-transistorer med die-område på 20 nm.

en extrem tillämpning av SP-kärnor utvärderas genom att överväga en specialiserad datormiljö där ett multicore-chip innehåller hundratals olika applikationsspecifika kärnor. Endast de kärnor aktiveras som är mest användbara för den löpande applikationen. Resten av kärnorna på chip förblir avstängda. SP-kärnans design ger hög prestanda med färre men kraftfullare kärnor. Det observeras att SP-kärnor är mycket energieffektiva och de överträffar betydligt GPP-och EMB-kärnorna.

Kärnantal Analys: Figur 4b visar den jämförande analysen av kärnantal för topputförande mönster över de nämnda kärntyperna. Det visar att sp-design med toppprestanda endast använder 16-32 kärnor och cache upptar en stor del av formchipområdet. Lågkärniga SP-mönster överträffar andra mönster med 99,9% parallellitet. Högpresterande egenskaper hos SP-kärnor ökar kraftkuvertet längre än vad som är möjligt med andra kärnkonstruktioner. SP multicores uppnå 2x till 12x speedup över EMB och GPP multicore design och slutligen begränsas av den begränsade off-chip bandbredd. Ett 3D-staplat minne används för att mildra effekten av bandbreddsbegränsningar utöver effektgränserna. Användningen av 3D-staplat minne Driver bandbreddsbegränsningen och leder till en högpresterande kraftbegränsad design (figur 4c). Eliminering av off-chip bandbredd flaskhals tar oss tillbaka till den kraftbegränsade regimen som har ett underutnyttjat matrisområde (figur 4b). Minskning av off-chip bandbredd genom att kombinera 3D-minne med specialiserade kärnor förbättrar speedup av 3x för 20nm dö storlek och minskar trycket på On-chip cache storlek. Å andra sidan kan GPP-och EMP-chip-multiprocessorer bara uppnå mindre än 35 procent av prestandaförbättringen.

Figur 4: analys av Kärnräkningar

4 nuvarande STATE-of-the-ART

fenomenet mörkt kisel startade 2005. Det var den tid då processordesigners började öka kärnantalet för att utnyttja Moores Lagskalning snarare än att förbättra en enda kärnprestanda. Som ett resultat blev det uppenbart att Moores lag och Dennard-skalning beter sig omvänt i verkligheten. Dennard-skalning säger att densiteten hos transistorer per ytenhet förblir konstant med en minskning av dess storlek . Initialt delades processorns uppgifter in i olika områden för att uppnå effektiv bearbetning och minimera påverkan av mörkt kisel. Denna uppdelning ledde till begreppen flytpunktsenheter och senare insåg man att uppdelning och distribution av processorns uppgifter med hjälp av specialiserade moduler också kunde bidra till att lindra problemet med mörkt kisel. Dessa specialiserade moduler resulterade i ett mindre processorområde med effektiv uppgiftsutförande som gjorde det möjligt för oss att stänga av en specifik grupp transistorer innan vi startade en annan grupp. Användningen av några transistorer på ett effektivt sätt i en uppgift gör att vi kan fortsätta att ha arbetstransistorer i en annan del av processorn. Dessa begrepp avancerade till System på Chip (SoC) och System i Chip (SiC) processorer. Transistorer i Intel-processorer slås också på / av beroende på arbetsbelastningen. Men specialiserad multicore-design som diskuteras i denna rapport kräver ytterligare forskning för att inse dess inverkan på andra SoC-och SiC-multicore-processorer som har olika krav på bandbredd och temperatur.

5 relaterat arbete

i det här avsnittet kommer vi att diskutera andra strategier, tekniker eller trender som föreslås i litteraturen om fenomenet mörkt kisel.

Jorg Henkel et al. introducerade nya trender i mörkt kisel 2015. Det presenterade papperet fokuserar på de termiska aspekterna av mörkt kisel. Det bevisas av omfattande experiment att chips totala effektbudget inte är den enda anledningen bakom mörk kisel, effekttäthet och relaterade termiska effekter spelar också en viktig roll i detta fenomen. Därför föreslår de en termisk säker kraft (TSP) för en effektivare energibudget. En ny föreslagen trend säger att övervägande av topptemperaturbegränsning ger en minskning av kiselns mörka område. Dessutom föreslås det också att användningen av dynamisk Spänningsfrekvensskalning ökar den totala systemprestandan och minskar det mörka kislet .

Anil et al. presenterade ett run-time resource management system 2018 som kallas adBoost. Den använder mörk kisel medveten run-time program kartläggning strategi för att uppnå termisk medveten prestanda öka i flerkärniga processorer. Det drar nytta av mönstring (PAT) av mörkt kisel. PAT är en kartläggningsstrategi som jämnt fördelar temperaturen över chipet för att förbättra den användbara effektbudgeten. Det erbjuder lägre temperaturer, högre effektbudget och upprätthåller de mer förlängda perioderna för att öka. Experiment visar att det ger 37 procent bättre genomströmning jämfört med andra toppmoderna prestandaförstärkare .

Lei Yang et al. föreslog en termisk modell 2017 för att lösa det grundläggande problemet med att bestämma förmågan hos multiprocessorsystemet på chip för att köra önskat jobb genom att bibehålla dess tillförlitlighet och hålla varje kärna inom ett säkert temperaturområde. Den föreslagna termiska modellen används för snabb chip temperatur förutsägelse. Den hittar den optimala uppgiften-till-kärntilldelningen genom att förutsäga minsta chiptopptemperatur. Om den minsta chiptopptemperaturen på något sätt överstiger den säkra temperaturgränsen, reagerar en nyligen föreslagen heuristisk algoritm som kallas temperaturbegränsad uppgiftsval (TCT) för att optimera systemets prestanda inom en chipsäker temperaturgräns. Optimalitet av tcts-algoritmen är formellt bevisat, och omfattande prestandautvärderingar visar att denna modell minskar chiptopptemperaturen med 10 kcal C jämfört med andra traditionella tekniker. Övergripande systemprestanda förbättras med 19,8% under säker temperaturbegränsning. Slutligen genomförs en verklig fallstudie för att bevisa genomförbarheten av denna systematiska teknik .

6 slutsats

kontinuerlig skalning av flerkärniga processorer begränsas av kraft -, temperatur-och bandbreddsbegränsningar. Dessa begränsningar begränsar den konventionella multicore-designen till att skala utöver några tiotals till låga hundratals kärnor. Som ett resultat offrar en stor del av ett processorchip för att göra det möjligt för resten av chipet att fortsätta arbeta. Vi har diskuterat en teknik för att återanvända det oanvända die-området (mörkt kisel) genom att konstruera specialiserade multicores. Specialiserade (SP) multicores implementerar ett stort antal arbetsbelastningsspecifika kärnor och startar endast de specifika kärnorna som har en nära matchning med kraven för den exekverande arbetsbelastningen. En detaljerad första ordningsmodell föreslås för att analysera utformningen av SP multicores genom att överväga alla fysiska begränsningar. Omfattande arbetsbelastningsexperiment i jämförelse med andra generella multicores utförs för att analysera modellens prestanda. SP multicores överträffar andra mönster med 2x till 12x. Även om SP multicores är en tilltalande design, måste moderna arbetsbelastningar karakteriseras för att identifiera beräkningssegmenten som fungerar som kandidater för avlastning till specialiserade kärnor. Dessutom krävs mjukvaruinfrastruktur och runtime environment för att underlätta kodmigreringen vid lämplig granularitet.

1965. Moores lag. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Skalning. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Ström Vägg. Springer US, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Chip multiprocessorer för server arbetsbelastning. handledare-Babak Falsafi och Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki och Babak Falsafi. 2010. Effektskalning: det ultimata hindret för 1K-kärnchips. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi och Anastasia Ailamaki. 2011. Mot mörk kisel i servrar. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki och Babak Falsafi. 2007. Databasservrar på Chip Multiprocessorer: begränsningar och möjligheter.. I CIDR, Vol. 7. Citeseer, 79-87.

J. A. O. R. Henkel, Heba Khdr, Santiago Pagani och Muhammad Shafique. 2015. Nya trender i mörk kisel. I 2015 52nd ACM / EDAC / IEEE Design Automation Conference (DAC). IEEE, 1-6.

Mark D Hill och Michael R Marty. 2008. Amdahls lag i multicore-eran. Dator 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen och Chao Chen. 2018. Chip temperatur optimering för mörka kisel många-core-system. IEEE-transaktioner på datorstödd Design av integrerade kretsar och system 37, 5 (2018), 941-953.

Amir M Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: termisk medveten prestanda som ökar genom Mörk Kiselmönster. IEEE Trans. Dator. 67, 8 (2018), 1062–1077.

Lämna ett svar

Din e-postadress kommer inte publiceras.

lg