Foto Av Harrison Broadbent På Unsplash

denne rapporten oppsummerer de teknologiske trendene som gir opphav til fenomenet mørkt silisium, dets innvirkning på serverne, og et forsøk på å dempe dem basert på forskningspapiret Publisert I 2011 Av Hardavellas et al. Server chips skalerer ikke utover en viss grense. Som et resultat forblir en økende del av brikken slått av, kjent som mørkt silisium, som vi ikke har råd til å drive. Spesialiserte multi-core prosessorer kan gjøre bruk av rikelig, underutnyttet, og strømbegrenset dø området ved å tilby ulike applikasjonsspesifikke heterogene kjerner for å forbedre serverytelse og energieffektivitet.

Data vokser eksponentielt. Det krever beregningsenergi for å behandle og utføre beregninger. Det har blitt observert at data vokser raskere Enn Moores Lov . Moores Lov sier at datamaskinens ytelse, CPU-klokkehastighet og antall transistorer per chip vil doble hvert annet år. En enestående mengde beregningsenergi er nødvendig for å takle denne utfordringen. Det er nok å få en ide om energibehovet ved et eksempel at 1000m2 datacenter er 1,5 MW. I dag brukes multicore-prosessorer til å behandle disse dataene. Det antas at ytelsen til et system er direkte proporsjonal med antall tilgjengelige kjerner. Men denne troen er ikke sant fordi ytelsen ikke følger Moores Lov. I virkeligheten er ytelsen mye tregere enn de forventede resultatene på grunn av noen fysiske begrensninger som båndbredde, strøm og termiske grenser, som vist i figur 1.

Figur 1: Fysiske Begrensninger

det er observert at off-chip båndbredde vokser sakte. Som et resultat kan kjerner ikke mates med data raskt nok. En økning i antall transistorer reduserer ikke spenningen raskt nok. En 10x økning i transistorer resulterte i bare en 30% spenningsfall i det siste tiåret. På samme måte er kraften begrenset av kjølegrenser, da kjøling ikke skaleres i det hele tatt. For å brenne multicore-revolusjonen vokser antall transistorer på brikken eksponentielt. Imidlertid krever drift av alle transistorer samtidig eksponentielt mer kraft per chip, noe som bare ikke er mulig på grunn av de fysiske begrensningene som er forklart tidligere. Som et resultat blir et eksponentielt stort område av brikken ubrukt, kjent som mørkt silisium.

det mørke silisiumområdet vokser eksponentielt, som vist av trendlinjen i figur 2. I denne grafen tegnes dørstørrelsen for toppytelsen for de forskjellige arbeidsbelastningene med tiden. I enkle ord kan vi bare bruke en brøkdel av transistorene som er tilgjengelige på en stor chip, og resten av transistorene forblir slått av.

Figur 2: Die size trend

nå oppstår et spørsmål, skal vi kaste bort dette store uutnyttede mørke området av brikken? Hardavellas et al. repurposed mørk silisium for chip multiprocessors (CMPs) ved å bygge et hav av spesialiserte heterogene applikasjonsspesifikke kjerner. Disse spesialiserte kjernene slår dynamisk opp bare noen få utvalgte kjerner designet eksplisitt for den gitte arbeidsbelastningen. De fleste av disse applikasjonskjernene forblir for å deaktivere / mørke når de ikke er i bruk.

Fordeler Med Spesialiserte Kjerner: Spesialiserte kjerner er bedre enn konvensjonelle kjerner fordi de eliminerer kostnader. For eksempel, for å få tilgang til et stykke data fra det lokale minnet, L2 cache, og hovedminnet krever 50 pJ, 256-1000 pJ, og nesten 16000 pJ energi, henholdsvis. Disse kostnadene tilhører generell databehandling, mens en nøye utformet spesialisert kjerne kan eliminere de fleste av disse kostnadene. Spesialiserte kjerner forbedrer samlet ytelse og energieffektivitet for serverarbeidsbelastninger ved å redusere effekten av fysiske begrensninger.

1.1 Metodikk

for å vurdere omfanget av mørkt silisium er det avgjørende å i fellesskap optimalisere et stort antall designparametere for å komponere CMPs som er i stand til å oppnå topp ytelse mens de holder seg innenfor de fysiske begrensningene. Derfor utvikler vi førstegangsanalytiske modeller ved å optimalisere prosessorens hovedkomponenter, for eksempel terskelspenning &, klokkefrekvens, hurtigbufferstørrelse, minnehierarki og kjerneantall. Målet med de analytiske modellene er å utlede topp ytelse design og beskrive fysiske begrensninger av prosessoren. Detaljerte parameteriserte modeller er konstruert i HENHOLD til ITRS * – standarder. Disse modellene hjelper til med å utforske designrommet til multicores. Merk at disse modellene ikke foreslår det absolutte antallet kjerner eller hurtigbufferstørrelse som kreves for å oppnå topp ytelse i prosessorene. I stedet er de analytiske modeller foreslått for å fange de første ordens effektene av teknologiskalering for å avdekke trender som fører til mørkt silisium. Utførelsen av disse modellene måles i form av samlet server gjennomstrømning, og modellen undersøkes autonomt i heterogen databehandling.

for å konstruere slike modeller har vi gjort noen designkonfigurasjonsvalg for maskinvare, båndbredde, teknologi, strøm og områdemodeller, som beskrevet i neste avsnitt i detalj.

2.1 Maskinvaremodell

CMPs er bygget over tre typer kjerner, dvs.generell (GPP), innebygd (EMB) og spesialisert (SP). GPPs er skalar i rekkefølge fireveis flertrådede kjerner og gir høy gjennomstrømning i et servermiljø ved å oppnå 1,7 x mer fart over en enkelttrådet kjerne . EMB-kjerner representerer et kraftbevisst designparadigme, og de ligner GPP-kjerner i ytelse. Spesialiserte kjerner er CMPs med spesialisert maskinvare, FOR EKSEMPEL GPU, digitale signalprosessorer og feltprogrammerbare gatearrayer. Bare de maskinvarekomponentene vil oppstart, som er best egnet for den gitte arbeidsbelastningen når som helst. SP-kjerner overgår GPP-kjerner 20x med 10x mindre strøm.

2.2 Teknologi Modell

CMPs er modellert over 65nm, 45nm, 32nm, og 20nm fabrikasjon teknologier etter ITRS anslag. Transistorer med høy terskelspenning Vth er best for å evaluere senking av lekkasjestrøm. Derfor brukes høye vth-transistorer til å redusere effekten av kraftvegg . CMPs med høyytelses transistorer for hele brikken, LOP (lav driftseffekt) for cachen og LOP transistorer for hele brikken brukes til å utforske egenskapene og oppførselen til modellen.

2.3 Arealmodell

modellen begrenser dørområdet til 310mm2. Interconnect og system-on-chip komponenter opptar 28% av området, og resten av 72% er for kjerner og cache. Vi kan estimere kjerneområder ved å skalere eksisterende design for hver type kjerne i HENHOLD til ITRS-standarder. UltraSPARC t1 core er skalert FOR GPP-Kjerner OG ARM11 FOR EMB-og SP-kjerner.

2.4 Performance Model

Amdahls Lov er grunnlaget for performance model. Det forutsetter 99% applikasjonsparallellisme. Utførelsen av en enkelt kjerne beregnes ved å aggregere UIPC (user instructions committed per cycle). Uipcis beregnet i form av minnetilgang tid gitt av følgende formel:

Gjennomsnittmemoryaccesstime = HitTime + MissRate × MissPenalty

UIPC er proporsjonal med den totale systemgjennomstrømningen. Detaljerte formler, avledninger, og beregninger av ytelsen modellen er tilgjengelig på .

2,5 L2 hurtigbufferfrekvens og datasett evolution-modeller

Det Er viktig Å Estimere hurtigbufferfrekvensen for den gitte arbeidsbelastningen, da den spiller en styrende rolle i ytelsen. L2 cache av størrelse mellom 256KB OG 64MB er kurvemontert ved hjelp av empiriske målinger for å estimere cache miss rate. X-shifted power law
y = α (x + β )^γ passer våre data best med bare 1,3% gjennomsnittlig feilrate. Miss-rate skalering formler er oppført med detaljer i dette arbeidet .

2.6 Off-chip båndbredde Modell

Chip båndbredde krav er modellert ved estimering av off-chip aktivitet rate, dvs. klokkefrekvens og kjerne ytelse. Off-chip båndbredde er proporsjonal Med L2 miss rate, kjerne teller, og kjerneaktivitet. Maksimal tilgjengelig båndbredde er gitt av summen av antall pads og maksimale off-chip klokker. I vår modell behandler VI 3d-Stablet minne som en stor l3-cache på grunn av høy kapasitet og høy båndbredde. Hvert lag MED 3d-stablet minne er 8 Gbits ved 45nm-teknologi. Energiforbruket til hvert lag er i verste fall 3,7 Watt. Vi modellerer 8 lag med en total kapasitet på 8 GBytes og ett ekstra lag for kontrolllogikk. Tilsetningen av 9 lag øker chiptemperaturen til 10°C. Likevel står vi for strømfordeling for å motvirke disse effektene. Vi anslår AT 3d-stabling vil forbedre minnetilgangstiden med 32.5% fordi det gjør kommunikasjonen mellom kjernene og 3d-minnet svært effektiv.

2.7 Power Model

Total chip power beregnes ved å legge til statisk og dynamisk kraft for hver komponent,for eksempel kjerne, cache, i / O, interconnect, etc. VI bruker ITRS-data for å administrere maksimal tilgjengelig kraft for luftkjølte chips med kjøleribber. Vår modell vil ta maksimale effektgrenser som inngang og vil kaste bort All CMPs-design som overskrider de definerte effektgrensene. Flytende kjøleteknologi kan øke maksimal effekt, men vi har ennå ikke lykkes med å bruke termiske kjølemetoder i kjerner. Den dynamiske kraften Til n-kjerner Og l2-cache beregnes ved hjelp av formlene nevnt i papiret med detaljer.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Figur 3: Ytelse av generelle formål (GPP) chip multiprosessorer

3 ANALYSE

etter design må vi demonstrere bruken av våre analytiske modeller. Vi vil utforske toppytelsesdesignene til generelle og spesialiserte multicore-prosessorer i de neste to underavsnittene. Videre vil vi også evaluere kjernetallene for disse designene og konkludere med komparativ analyse.

3.1 multicore-prosessorer for generelle formål

vi begynner med å forklare utviklingen av vår algoritme for toppytelsesdesign-romforskning ved resultatene vist i figur 3. Figur 3a representerer ytelsen til en 20nm GPP CMPs kjører Apache bruker høy ytelse (HP) transistorer for både kjerner og cache. Grafen representerer samlet chip ytelse som en funksjon Av l2 cache størrelse. Det betyr at en brøkdel av dørområdet er dedikert Til l2-cachen (representert I MB på x-aksen).

Arealkurve viser ytelsen til designet med ubegrenset kraft og off-chip båndbredde, men har begrenset on-chip die-område. Større cache færre kjernene. Selv om noen få kjerner passer på det gjenværende dørområdet, utfører hver kjerne det beste på grunn av den høye hitfrekvensen til den større cachen. Ytelsesfordelen oppnås ved å øke L2-hurtigbufferen TIL 64 MB. Etter dette oppveies det av kostnaden for ytterligere å redusere antall kjerner.

Strømkurve viser ytelsen til designet som kjører ved maksimal frekvens med begrenset effekt på grunn av luftkjøling, men har ubegrenset off-chip båndbredde og område. Strømbegrensningen begrenser aggregatets chipytelse fordi kjøring av kjernene ved maksimal frekvens krever en enestående mengde energi som begrenser designet til bare noen få kjerner.

Båndbreddekurve representerer ytelsen til designet som kjører på et ubegrenset strøm-og dørområde med begrenset off-chip-båndbredde. Slike design reduserer off-chip båndbredde trykket på grunn av større tilgjengelig cache størrelse og forbedrer ytelsen. Område + Strømkurve representerer ytelsen til designet begrenset i kraft og område, men ubegrenset off-chip båndbredde. En slik utforming optimaliserer i fellesskap frekvensen og spenningen til kjernene ved å velge toppytelsesdesign for hver l2-hurtigbufferstørrelse.

Peak performance curve representerer multicore design som tilpasser seg alle de fysiske begrensninger. Ytelsen er begrenset av off-chip båndbredde i starten, men etter 24 MB strøm blir den viktigste ytelsesbegrenseren. Topp ytelse design oppnås i skjæringspunktet mellom strøm og båndbredde kurver. Et stort gap mellom topp ytelse og arealkurve indikerer at et stort område av silisiumet I GPP ikke kan brukes til flere kjerner på grunn av strømbegrensninger.

Figur 3b representerer ytelsen til designene som bruker hoy ytelse (HP) transistorer for kjerner og lav operativ effekt (LOP) for cachen. På samme måte representerer figur 3c ytelsen til designene med lav driftseffekt for både kjerner og hurtigbufferen. Design som bruker HP transistorer, kan bare slå opp 20% av kjernene som passer inn i dørområdet på 20 nm. På den annen side gir design som bruker LOP-transistorer for cachen (figur 3c) høyere ytelse enn design som bruker HP-transistorer fordi de muliggjør større cacher som støtter omtrent dobbelt så mange kjerner, dvs. 35-40% kjerner i vårt tilfelle. LOP-enheter gir hoyere stromeffektivitet fordi de er egnet til a implementere bade kjernene og hurtigbufferen.

Derfor kan vi konkludere med at topp ytelse design tilbys av generelle multicore prosessorer resulterer i et stort område av mørk silisium når kjerner og cacher er bygget MED HP transistorer. Imidlertid gjor bruk AV LOP-transistorer det morke omradet opp til en viss grad som forklart tidligere og vist i figur 3.

Kjerne Teller Analyse: for å analysere det utnyttede antall kjerner, figur 4a plotter det teoretiske antall kjerner som kan passe på et spesifisert dørområde av den tilsvarende teknologien sammen med kjerne teller av topp ytelse design. På grunn av chip makt grenser, HP-baserte design ble umulig etter 2013. Selv OM LOP-baserte design ga en vei fremover, indikerer det hoye gapet som vises mellom terningområdegrensen og LOP-designene at en okende fraksjon av terningområdet vil forbli mork pa grunn av underutnyttede kjerner.

3.2 Spesialiserte multicore prosessorer

nå viser vi topp ytelse design ved HJELP AV GPP, embedded (EMB), og spesialiserte (SP) kjerner VED HJELP AV LOP transistorer har dø område på 20 nm.

en ekstrem anvendelse AV SP-kjerner evalueres ved å vurdere et spesialisert datamiljø der en multicore-chip inneholder hundrevis av forskjellige applikasjonsspesifikke kjerner. Bare de kjernene aktiveres som er mest nyttige for det løpende programmet. Resten av on-chip-kjernene forblir slått av. SP-kjernedesign gir høy ytelse med færre, men kraftigere kjerner. DET observeres AT SP-kjerner er svært energieffektive, og de overgår gpp-og EMB-kjernene betydelig.

Analyse Av Kjernetall: Figur 4b viser komparativ analyse av kjerne teller for topp utføre design på tvers av de nevnte kjernetyper. Det viser at topp ytelse SP design ansette bare 16-32 kjerner og cache opptar en stor del av die chip området. Low-core-count SP design utkonkurrere andre design med 99,9% parallellitet. Høyytelsesegenskaper AV SP-kjerner øker kraftkuvertet ytterligere enn det som er mulig med andre kjernedesigner. SP multicore oppnå 2x til 12x speedup OVER EMB og GPP multicore design og er til slutt begrenset av den begrensede off-chip båndbredde. Et 3d-stablet minne brukes til å redusere effekten av båndbreddebegrensninger utover strømgrensene. Bruken AV 3d-stablet minne skyver båndbreddebegrensningen og fører til en høy ytelse strømbegrenset design (figur 4c). Eliminering av off-chip båndbredde flaskehals tar oss tilbake til det strømbegrensede regimet som har et underutnyttet dørområde (figur 4b). Reduksjon av off-chip båndbredde ved å kombinere 3d-minne med spesialiserte kjerner forbedrer speedup med 3x for 20nm dø størrelse og reduserer trykket på on-chip cache størrelse. På den annen side kan GPP og EMP chip multiprosessorer bare oppnå mindre enn 35 prosent av ytelsesforbedring.

Figur 4: Analyse Av Kjernetall

4 NÅVÆRENDE STATE-OF-THE-ART

fenomenet mørkt silisium startet i 2005. Det var tiden da prosessordesignere begynte å øke kjernetellingen for å utnytte Moores Lovskalering i stedet for å forbedre en enkeltkjerneytelse. Som et resultat ble Det funnet Ut At Moores Lov og Dennard scaling oppfører seg omvendt i virkeligheten. Dennard skalering sier at tettheten av transistorer per arealenhet forblir konstant med en reduksjon i størrelsen . I utgangspunktet ble prosessorens oppgaver delt inn i forskjellige områder for å oppnå effektiv behandling og minimere virkningen av mørkt silisium. Denne divisjonen førte til begrepene flyttallsenheter og senere ble det innsett at divisjon og distribusjon av prosessorens oppgaver ved hjelp av spesialiserte moduler også kunne bidra til å lindre problemet med mørkt silisium. Disse spesialiserte modulene resulterte i et mindre prosessorområde med effektiv oppgaveutførelse som gjorde det mulig for oss å slå av en bestemt gruppe transistorer før vi startet en annen gruppe. Bruken av noen få transistorer på en effektiv måte i en oppgave tillater oss å fortsette å ha arbeidstransistorer i en annen del av prosessoren. Disse konseptene avanserte Til System on Chip (SoC) og System in Chip (SiC) prosessorer. Transistorer I Intel-prosessorer slår også PÅ / av i henhold til arbeidsbelastningen. Men spesialisert multicore design diskutert i denne rapporten krever videre forskning for å realisere sin innvirkning på Andre SoC og SiC multicore prosessorer som har ulike krav til båndbredde og temperatur.

5 RELATERT ARBEID

i denne delen vil vi diskutere andre strategier, teknikker eller trender foreslått i litteraturen om fenomenet mørk silisium.

Jorg Henkel et al. introdusert nye trender i mørk silisium i 2015. Det presenterte papiret fokuserer på de termiske aspektene av mørkt silisium. Det er bevist av omfattende eksperimenter at chips totale strømbudsjett ikke er den eneste grunnen til at mørk silisium, strømtetthet og relaterte termiske effekter også spiller en viktig rolle i dette fenomenet. Derfor foreslår De En Termisk Sikker Kraft (TSP) for et mer effektivt strømbudsjett. En ny foreslått trend sier at hensynet til topptemperaturbegrensning gir en reduksjon i silisiumets mørke område. Videre foreslås det også at bruken Av Dynamisk Spenningsfrekvensskalering øker den generelle systemytelsen og reduserer det mørke silisiumet .

Anil et al. presenterte et run-time resource management system i 2018 kjent som adBoost. Det benytter mørk silisium aware run-time program kartlegging strategi for å oppnå termisk-aware ytelse øker i flerkjernede prosessorer. Det drar nytte av mønster (PAT) av mørkt silisium. PAT er en kartleggingsstrategi som jevnt fordeler temperaturen over brikken for å forbedre det utnyttbare strømbudsjettet. Det gir lavere temperaturer, høyere strømbudsjett, og opprettholder de lengre perioder med økning. Eksperimenter viser at det gir 37 prosent bedre gjennomstrømning sammenlignet med andre toppmoderne ytelsesforsterkere .

Lei Yang et al. foreslått en termisk modell i 2017 for å løse det grunnleggende problemet med å bestemme evnen til multiprosessorsystemet på brikken for å kjøre ønsket jobb ved å opprettholde påliteligheten og holde hver kjerne innenfor et sikkert temperaturområde. Den foreslåtte termiske modellen brukes til rask chip temperatur prediksjon. Den finner den optimale oppgave-til-kjerne oppdrag ved å forutsi minimum chip topptemperatur. Hvis minimum chip topptemperatur på en eller annen måte overskrider den sikre temperaturgrensen, reagerer en nylig foreslått heuristisk algoritme kjent som temperaturbegrenset oppgavevalg (tcts) for å optimalisere systemytelsen innenfor en chip sikker temperaturgrense. Optimaliteten TIL tcts-algoritmen er formelt bevist, og omfattende ytelsesevalueringer viser at denne modellen reduserer chipens topptemperatur med 10°C sammenlignet med andre tradisjonelle teknikker. Samlet systemytelse forbedres med 19,8% under sikker temperaturbegrensning. Til slutt utføres en ekte casestudie for å bevise muligheten for denne systematiske teknikken .

6 KONKLUSJON

Kontinuerlig skalering av flerkjerneprosessorer er begrenset av begrensninger for strøm, temperatur og båndbredde. Disse begrensningene begrenser den konvensjonelle multicore-designen til å skalere utover noen få titalls til lave hundrevis av kjerner. Som et resultat ofrer en stor del av en prosessorbrikke for å gjøre det mulig for resten av brikken å fortsette å jobbe. Vi har diskutert en teknikk for å gjenbruke det ubrukte dørområdet (mørkt silisium) ved å bygge spesialiserte multikorer. Specialized (SP) multicores implementerer et stort antall arbeidsbelastningsspesifikke kjerner og slår bare opp de spesifikke kjernene som har en nær kamp med kravene til den utførende arbeidsbelastningen. En detaljert førsteordensmodell foreslås å analysere utformingen AV SP multicores ved å vurdere alle fysiske begrensninger. Omfattende arbeidsbelastningseksperimenter i sammenligning med andre generelle multicores utføres for å analysere ytelsen til modellen. SP multicores overgår andre design med 2x til 12x. SELV OM sp multicores er en tiltalende design, må moderne arbeidsbelastninger karakteriseres for å identifisere beregningssegmentene som fungerer som kandidater for off-loading til spesialiserte kjerner. Videre er programvareinfrastruktur og kjøretidsmiljø også nødvendig for å lette kodemigrasjonen ved riktig granularitet.

1965. Moores Lov. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Skalering. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Strøm Veggen. Springer USA, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Chip multiprosessorer for server arbeidsbelastninger. veiledere-Babak Falsafi Og Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki og Babak Falsafi. 2010. Power scaling: den ultimate hindringen for 1k-kjerne chips. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi og Anastasia Ailamaki. 2011. Mot mork silisium i servere. Ieee Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki og Babak Falsafi. 2007. Databaseservere på Chip Multiprosessorer: Begrensninger og Muligheter.. I CIDR, Vol. 7. Citeseer, 79-87.

Jö Henkel, Heba Khdr, Santiago Pagani og Muhammad Shafique. 2015. Nye trender i mørk silisium. I 2015 52ND ACM / EDAC / Ieee Design Automatisering Konferanse (DAC). IEEE, 1-6.

Mark D Hill og Michael R Marty. 2008. Amdahls Lov i multicore-epoken. Datamaskin 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen Og Chao Chen. 2018. Chip temperatur optimalisering for mørke silisium mange-core systemer. Ieee-Transaksjoner på Datastøttet Design Av Integrerte Kretser og Systemer 37, 5 (2018), 941-953.

Amir M Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, Et al. 2018. adBoost: Termisk Klar Ytelse Øker Gjennom Mørk Silisium Mønster. IEEE Trans. Comput. 67, 8 (2018), 1062–1077.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.

lg