Foto Harrison Broadbent na Unsplash

Tato zpráva shrnuje technologické trendy, které vedou k fenoménu temné silicon, jeho dopad na serverech, a snaze omezit je na základě výzkumu dokumentu, který byl zveřejněn v roce 2011 Hardavellas et al. Serverové čipy nepřekračují určitý limit. Výsledkem je, že stále větší část čipu zůstává vypnutá, známá jako tmavý křemík, který si nemůžeme dovolit napájet. Specializované multi-core procesory mohou využít bohaté, nevyužitý, a power-constrained zemřít oblasti tím, že poskytuje rozmanité konkrétní aplikaci heterogenních jader na zlepšení serveru, výkon a energetickou efektivitu.

Data rostou exponenciálním tempem. Vyžaduje výpočetní energii pro zpracování a provádění výpočtů. Bylo zjištěno, že data rostou rychleji než Mooreův zákon . Mooreův zákon stanoví, že výkon počítače, rychlost hodin CPU a počet tranzistorů na čip se každé dva roky zdvojnásobí. Bezprecedentní množství výpočetní energie je zapotřebí vyrovnat se s touto výzvou. Stačí si udělat představu o energetické náročnosti na příkladu, že 1000m2 datacentra je 1,5 MW. V současné době se pro zpracování těchto dat používají vícejádrové procesory. Předpokládá se, že výkon systému je přímo úměrný počtu dostupných jader. Tato víra však není pravdivá, protože výkon se neřídí Mooreovým zákonem. Ve skutečnosti je výkon mnohem pomalejší než očekávané výsledky kvůli některým fyzickým omezením, jako je šířka pásma,výkon a tepelné limity, jak je znázorněno na obrázku 1.

Obr. 1: Fyzické Omezení

je pozorováno, že off-chip šířka pásma roste pomalu. Výsledkem je, že jádra nemohou být napájena daty dostatečně rychle. Zvýšení počtu tranzistorů nesnižuje napětí dostatečně rychle. 10x nárůst tranzistorů vedl v posledním desetiletí pouze k poklesu napětí o 30%. Stejně tak je výkon omezen chladicími limity, protože chlazení se vůbec nezmění. Aby se podpořila vícejádrová revoluce, počet tranzistorů na čipu exponenciálně roste. Provoz všech tranzistorů současně však vyžaduje exponenciálně větší výkon na čip, což prostě není možné kvůli fyzickým omezením vysvětleným dříve. V důsledku toho je exponenciálně velká plocha čipu ponechána nevyužitá, známá jako tmavý křemík.

tmavá křemíková oblast exponenciálně roste, jak ukazuje trendová linie na obrázku 2. V tomto grafu je velikost zápustky špičkového výkonu pro různé pracovní zátěže vynesena s časem. Jednoduše řečeno, můžeme použít pouze zlomek tranzistorů dostupných na velkém čipu a zbytek tranzistorů zůstává vypnutý.

Obrázek 2: Die velikost trend

Teď vyvstává otázka, neměli bychom plýtvat velké nevyužité tmavé oblasti čipu? Hardavellas et al. repurposed tmavý křemík pro čipové multiprocesory (CMP) vytvořením moře specializovaných heterogenních aplikačně specifických jader. Tato specializovaná jádra dynamicky napájejí pouze několik vybraných jader určených explicitně pro danou pracovní zátěž. Většina z těchto aplikačních jader zůstává deaktivována / tmavá, pokud se nepoužívá.

výhody specializovaných jader: specializovaná jádra jsou lepší než konvenční jádra, protože eliminují režijní náklady. Například pro přístup k části dat z místní paměti vyžaduje mezipaměť L2 a hlavní paměť 50 pJ, 256-1000 pJ a téměř 16000 PJ energie. Tyto režijní náklady patří do univerzálních výpočtů, zatímco pečlivě navržené specializované jádro může většinu těchto režijních nákladů eliminovat. Specializovaná jádra zlepšují souhrnný výkon a energetickou účinnost pracovní zátěže serverů zmírněním účinku fyzických omezení.

1.1 Metodika

posoudit rozsah tmavě křemíku, je zásadní, aby společně optimalizovat velké množství konstrukčních parametrů skládat CMPs, které jsou schopné dosáhnout špičkový výkon a zároveň zůstat ve fyzické omezení. Proto vyvíjíme prvního řádu analytické modely optimalizací hlavních komponent procesoru, jako je nabídka & prahové napětí, taktovací frekvenci, velikost paměti, paměťová hierarchie, a jádro počítat. Cílem analytických modelů je odvodit návrhy špičkového výkonu a popsat fyzikální omezení procesoru. Podrobné parametrizované modely jsou konstruovány podle standardů ITRS*. Tyto modely pomáhají při zkoumání konstrukčního prostoru multicores. Všimněte si, že tyto modely nenavrhují absolutní počet jader nebo velikost mezipaměti potřebnou k dosažení špičkového výkonu v procesorech. Namísto, jsou to analytické modely navržené k zachycení účinků technologického škálování prvního řádu, aby se odhalily trendy vedoucí k tmavému křemíku. Výkon těchto modelů je měřen z hlediska agregátní propustnosti serveru a model je zkoumán autonomně v heterogenních výpočtech.

abychom vytvořili takové modely, provedli jsme několik možností konfigurace návrhu pro modely hardwaru, šířky pásma, technologie, napájení a oblasti, jak je podrobně popsáno v další části.

2.1 hardwarový Model

CMP jsou postaveny na třech typech jader, tj. GPPs jsou skalární v řádu čtyř-způsob, multithreaded jader a poskytují vysokou propustnost v prostředí serveru tím, že dosažení 1,7 x větší zrychlení než single-threaded jádro . Jádra EMB představují paradigma designu vědomého výkonu a jsou podobná jádrům GPP ve výkonu. Specializovaná jádra jsou CMP se specializovaným hardwarem, např. GPU, procesory digitálních signálů a pole programovatelná hradlová pole. Zapnou se pouze ty hardwarové komponenty, které jsou pro danou pracovní zátěž nejvhodnější kdykoli. Sp jádra překonávají GPP jádra 20x s 10x menším výkonem.

2.2 technologický Model

CMP jsou modelovány napříč 65nm, 45nm, 32nm a 20nm výrobními technologiemi podle projekcí ITRS. Tranzistory s vysokým prahovým napětím Vth jsou nejlepší pro vyhodnocení snížení svodového proudu. Proto se používají vysoké tranzistory Vth ke zmírnění účinku silové stěny . CMP s vysoce výkonnými tranzistory pro celý čip, LOP (nízký provozní výkon) pro mezipaměť a tranzistory LOP pro celý čip se používají k prozkoumání vlastností a chování modelu.

2.3 plošný Model

model omezuje plochu zápustky na 310mm2. Komponenty propojení a systém na čipu zabírají 28% plochy a zbytek 72% je pro jádra a mezipaměť. Můžeme odhadnout oblasti jádra škálováním stávajících návrhů pro každý typ jádra podle standardů ITRS. UltraSPARC T1 jádro je škálováno pro jádra GPP a ARM11 pro jádra EMB a SP.

2.4 výkonnostní Model

Amdahlův zákon je základem výkonnostního modelu. Předpokládá 99% paralelismus aplikace. Výkon jednoho jádra se vypočítá agregací UIPC (user instructions committed per cycle). UIPCis vypočteno z hlediska doby přístupu do paměti dané následujícím vzorcem:

Averagemoryaccesstime = HitTime + MissRate × MissPenalty

UIPC je úměrná celkové propustnosti systému. Podrobné vzorce, odvození, a výpočty výkonnostního modelu jsou k dispozici na adrese.

2.5 L2 cache miss rate and data-set evolution models

odhad míry miss cache pro danou pracovní zátěž je důležitý, protože hraje řídící roli ve výkonu. Mezipaměť L2 o velikosti mezi 256KB a 64MB je vybavena křivkou pomocí empirických měření k odhadu míry vynechání mezipaměti. X-posunul výkon práva
y = α (x + β )^γ poskytuje nejvhodnější pro naše data s pouze 1,3% průměrná míra chyb. Miss-rate škálování vzorce jsou uvedeny s podrobnostmi v této práci .

2.6 model šířky pásma mimo čip

požadavky na šířku pásma čipu jsou modelovány odhadem rychlosti aktivity mimo čip, tj. Šířka pásma mimo čip je úměrná rychlosti vynechání L2, počtu jádra a jádrové aktivitě. Maximální dostupná šířka pásma je dána součtem počtu podložek a maximálních hodin mimo čip. V našem modelu považujeme 3D skládanou paměť za velkou mezipaměť L3 kvůli její vysoké kapacitě a velké šířce pásma. Každá vrstva 3D skládané paměti je 8 Gbits při 45nm technologii. Spotřeba energie každé vrstvy je v nejhorším případě 3, 7 wattu. Modelujeme 8 vrstev o celkové kapacitě 8 GBytes a jednu vrstvu navíc pro řídicí logiku. Přidání 9 vrstev zvyšuje teplotu čipu na 10°C. přesto zohledňujeme rozptyl energie, abychom těmto účinkům čelili. Odhadujeme, že 3D stohování zlepší dobu přístupu k paměti o 32.5%, protože komunikace mezi jádry a 3D pamětí je velmi efektivní.

2.7 Model Moci

Celkový chip výkon je součtem statického a dynamického výkonu jednotlivých komponent, jako je jádro, cache, I/O, propojení, atd. Data ITRS používáme ke správě maximálního dostupného výkonu pro vzduchem chlazené čipy s chladiči. Náš model bude mít maximální limity výkonu jako vstup a vyřadí všechny konstrukce CMP přesahující definované limity výkonu. Technologie kapalinového chlazení mohou zvýšit maximální výkon, ale zatím se nám nepodařilo aplikovat metody tepelného chlazení v jádrech. Dynamická síla N jader a L2 cache se vypočítá pomocí vzorců uvedených v článku s podrobnostmi.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Obrázek 3: Výkon pro všeobecné účely (GPP) čip multiprocessors

3 ANALÝZA

Po navrhování, musíme prokázat využití našich analytických modelů. V následujících dvou podsekcích prozkoumáme návrhy špičkového výkonu univerzálních a specializovaných vícejádrových procesorů. Dále, vyhodnotíme také základní počty těchto návrhů a uzavřeme srovnávací analýzou.

3.1 univerzální vícejádrové procesory

začneme vysvětlením postupu našeho algoritmu pro špičkový výkon-průzkum vesmíru výsledky znázorněnými na obrázku 3. Obrázek 3a Představuje výkon 20nm GPP CMP se systémem Apache pomocí vysoce výkonných (HP) tranzistorů pro jádra i mezipaměť. Graf představuje souhrnný výkon čipu jako funkci velikosti mezipaměti L2. To znamená, že zlomek oblasti matrice je věnován mezipaměti L2 (reprezentované v MB na ose x).

křivka plochy ukazuje výkon konstrukce s neomezeným výkonem a šířkou pásma mimo čip, ale s omezenou oblastí zápustky na čipu. Větší mezipaměť méně jader. I když pár čísel jader se vešly na zbývající plochu zemřít, každé jádro vykonává nejlepší vzhledem k vysoké hit sazby z větší cache. Výkonnostní přínos je dosažen zvýšením mezipaměti L2 až na 64 MB. Poté převažují náklady na další snížení počtu jader.

výkonová křivka ukazuje výkon konstrukce běžící na maximální frekvenci s omezeným výkonem v důsledku omezení chlazení vzduchem, ale s neomezenou šířkou pásma a oblastí mimo čip. Omezení výkonu omezuje souhrnný výkon čipu, protože běh jader na maximální frekvenci vyžaduje nebývalé množství energie, což omezuje návrh pouze na velmi málo jader.

křivka šířky pásma Představuje výkon konstrukce běžící na neomezené ploše výkonu a zápustky s omezenou šířkou pásma mimo čip. Taková konstrukce snižuje tlak šířky pásma mimo čip kvůli větší dostupné velikosti mezipaměti a zlepšuje výkon. Area + Power curve Představuje výkon konstrukce omezený výkonem a plochou, ale neomezenou šířkou pásma mimo čip. Takový návrh společně optimalizuje frekvenci a napětí jader výběrem návrhu špičkového výkonu pro každou velikost mezipaměti L2.

peak performance curve představuje vícejádrový design, který se přizpůsobuje všem fyzickým omezením. Výkon je na začátku omezen šířkou pásma mimo čip, ale po výkonu 24 MB se stává hlavním omezovačem výkonu. Návrh špičkového výkonu je dosažen na průsečíku křivek výkonu a šířky pásma. Velká mezera mezi špičkovým výkonem a křivkou plochy naznačuje, že obrovská plocha křemíku v GPP nemůže být použita pro více jader kvůli omezením výkonu.

Obrázek 3b představuje výkon vzory, které používají vysoký výkon (HP) tranzistory pro jádra a nízké provozní výkon (LOP) pro cache. Podobně obrázek 3c Představuje výkon návrhů s nízkým provozním výkonem jak pro jádra, tak pro mezipaměť. Konstrukce používající tranzistory HP mohou napájet pouze 20% jader, které se vejdou do oblasti zápustky 20 nm. Na druhou stranu, návrhy pomocí LOP tranzistory pro cache (obrázek 3c) výnos vyšší výkon než návrhy pomocí HP tranzistory, protože umožňují větší cache, které podporují přibližně dvojnásobný počet jader, tj. 35-40% jádra v našem případě. Zařízení LOP poskytují vyšší energetickou účinnost, protože jsou vhodná pro implementaci jader i mezipaměti.

Proto můžeme konstatovat, že špičkový výkon design nabízí univerzální vícejádrových procesorů výsledky ve velké oblasti tmavé křemíku, kdy jader a cache jsou postaveny s HP tranzistory. Použití tranzistorů LOP však do určité míry snižuje tmavou oblast, jak bylo vysvětleno dříve a znázorněno na obrázku 3.

Základní Počty Analýza: analyzovat využité počet jader, obrázek 4a pozemky teoretický počet jader, které se vejde na zadaný zemřít oblasti odpovídající technologie spolu s jádrem počítá peak performance designs. Vzhledem k limitům výkonu čipů se návrhy založené na HP po roce 2013 staly nemožnými. I když LOP na bázi průmyslových vzorů za předpokladu, cestu vpřed, vysoký rozdíl prokázán mezi zemřít mezní oblast a LOP návrhy naznačuje, že zvyšující se podíl zemřít oblasti, zůstanou tmavé, protože nevytížených jader.

3.2 Specializované vícejádrových procesorů

Nyní si předvedeme špičkový výkon návrhy pomocí GPP, embedded (EMB) a speciální (SP) jader pomocí LOP transistory, které mají zemřít ploše 20 nm.

extrémní aplikace jader SP je hodnocena zvážením specializovaného výpočetního prostředí, kde vícejádrový čip obsahuje stovky různých aplikačně specifických jader. Aktivují se pouze jádra, která jsou pro spuštěnou aplikaci nejužitečnější. Zbytek jader na čipu zůstává vypnutý. Konstrukce jader SP poskytuje vysoký výkon s méně, ale výkonnějšími jádry. Je pozorováno, že jádra SP jsou vysoce energeticky účinná a výrazně překonávají jádra GPP a EMB.

Analýza Počtu Jádra: Obrázek 4b ukazuje srovnávací analýzu počtu jader pro špičkové provedení návrhů napříč uvedenými typy jader. To ukazuje, že špičkový výkon Sp designy zaměstnávají pouze 16-32 jádra a cache zabírá velkou část oblasti die čipu. Návrhy Sp s nízkým počtem jader překonávají jiné návrhy s 99,9% paralelismem. Vysoce výkonné charakteristiky jader SP zvyšují energetickou obálku dále, než je možné u jiných konstrukcí jádra. Sp multicóry dosahují 2x až 12x zrychlení přes EMB a GPP vícejádrové návrhy a jsou nakonec omezeny omezenou šířkou pásma mimo čip. 3D skládaná paměť se používá ke zmírnění účinku omezení šířky pásma nad limity výkonu. Použití 3D skládané paměti tlačí omezení šířky pásma a vede k vysoce výkonnému návrhu s omezeným výkonem (obrázek 4c). Odstranění off-chip pásma zúžení nás zavede zpět do power-omezený režim s nevyužitou plochu zemřít (obrázek 4b). Snížení šířky pásma mimo čip kombinací 3D paměti se specializovanými jádry zlepšuje zrychlení o 3x pro velikost 20nm zápustky a snižuje tlak na velikost mezipaměti na čipu. Na druhé straně multiprocesory čipů GPP a EMP mohou dosáhnout pouze méně než 35 procent zlepšení výkonu.

Obrázek 4: Základní Počty Analýzy

4 AKTUÁLNÍ STAV-OF-THE-ART

fenomén temné silicon začal v roce 2005. Bylo to v době, kdy návrháři procesorů začali zvyšovat počet jádra, aby využívali škálování Mooreova zákona, spíše než zlepšovali výkon jednoho jádra. V důsledku toho bylo zjištěno, že Mooreův zákon a Dennard scaling se ve skutečnosti chovají opačně. Dennard scaling uvádí, že hustota tranzistorů na jednotku plochy zůstává konstantní s poklesem její velikosti . Zpočátku byly úkoly procesorů rozděleny do různých oblastí, aby se dosáhlo efektivního zpracování a minimalizoval dopad tmavého křemíku. Toto rozdělení vedlo ke koncepcím jednotek s plovoucí desetinnou čárkou a později bylo zjištěno, že rozdělení a distribuce úkolů procesoru pomocí specializovaných modulů může také pomoci zmírnit problém tmavého křemíku. Tyto specializované moduly vyústily v menší procesorovou oblast s efektivním prováděním úkolů, což nám umožnilo vypnout určitou skupinu tranzistorů před spuštěním jiné skupiny. Použití několika tranzistorů efektivním způsobem V jednom úkolu nám umožňuje mít pracovní tranzistory v jiné části procesoru. Tyto koncepty postoupily k procesorům System on Chip (SoC) a System in Chip (SIC). Tranzistory v procesorech Intel se také zapínají / vypínají podle pracovní zátěže. Nicméně, specializované vícejádrový design je popsáno v této zprávě vyžaduje další výzkum, aby si uvědomit, jeho dopad na ostatní SoC a SiC vícejádrových procesorů, které mají různé požadavky na šířku pásma a teploty.

5 SOUVISEJÍCÍ PRÁCE

V této sekci, budeme diskutovat o jiných strategií, technik, nebo trendy navrhované v literatuře o fenoménu temné silicon.

Jorg Henkel et al. představil nové trendy v tmavém křemíku v roce 2015. Předkládaný článek se zaměřuje na tepelné aspekty tmavého křemíku. Rozsáhlými experimenty je prokázáno, že celkový energetický rozpočet čipu není jediným důvodem tmavého křemíku, hustota výkonu a související tepelné účinky také hrají hlavní roli v tomto jevu. Proto navrhují tepelnou bezpečnou energii (TSP) pro efektivnější rozpočet na energii. Nový navrhovaný trend uvádí, že zohlednění omezení maximální teploty poskytuje snížení tmavé oblasti křemíku. Kromě toho se také navrhuje, aby použití dynamického škálování Frekvence Napětí zvýšilo celkový výkon systému a snížilo tmavý křemík .

Anil et al. představil systém řízení zdrojů run-time v roce 2018 známý jako adBoost. Využívá strategii mapování aplikací dark silicon aware run-time pro dosažení tepelného zvýšení výkonu ve vícejádrových procesorech. Těží z vzorování (PAT) tmavého křemíku. PAT je strategie mapování, která rovnoměrně rozděluje teplotu přes čip, aby se zvýšil využitelný rozpočet energie. Nabízí nižší teploty, vyšší rozpočet na energii a udržuje delší dobu zvyšování. Experimenty ukazují, že poskytuje o 37 procent lepší propustnost ve srovnání s jinými nejmodernějšími posilovači výkonu .

Lei Yang et al. navrhovaný tepelný model do roku 2017 vyřešit základní problém stanovení způsobilosti on-chip víceprocesorový systém spustit požadovanou úlohu tím, že udržuje jeho spolehlivost a udržet každý jádro v bezpečném rozsahu teplot. Navržený tepelný model slouží k rychlé predikci teploty čipu. Najde optimální úkol-to-core přiřazení tím, že předpovídá minimální špičkovou teplotu čipu. Pokud minimální maximální teplotu čipu nějak překračuje bezpečný limit teploty, nově navržený heuristický algoritmus známý jako teplota omezený výběr úkolů (TCTS) reaguje na optimalizaci výkonu systému v rámci čip bezpečný limit teploty. Optimalita algoritmu TCTS je formálně prokázána a rozsáhlá hodnocení výkonu ukazují, že tento model snižuje špičkovou teplotu čipu o 10°C ve srovnání s jinými tradičními technikami. Celkový výkon systému se při bezpečném omezení teploty zlepší o 19,8%. Konečně opravdový případ studie prokázat proveditelnost této systémové techniky .

6 závěr

kontinuální škálování vícejádrových procesorů je omezeno omezením výkonu, teploty a šířky pásma. Tato omezení omezují konvenční vícejádrový design v měřítku pouze za několik desítek až nízkých stovek jader. Výsledkem je, že velká část procesorového čipu obětuje, aby zbytek čipu mohl pokračovat v práci. Diskutovali jsme o technice, jak znovu použít nevyužitou oblast zápustky (tmavý křemík)konstrukcí specializovaných multicor. Specializované (SP) multicores realizovat velké množství specifické pro zatížení jader a zapnutí pouze těch specifických jader s úzkou shodu s požadavky na provádění pracovní vytížení. Je navržen podrobný model prvního řádu pro analýzu návrhu SP multikór zvážením všech fyzických omezení. Pro analýzu výkonu modelu jsou prováděny rozsáhlé experimenty s pracovním zatížením ve srovnání s jinými univerzálními multikory. Multikóry SP překonávají ostatní návrhy o 2x až 12x. I když SP multicores jsou atraktivní design, moderní pracovní vytížení musí být charakterizována identifikovat výpočetní segmenty slouží jako kandidáti pro off-loading specializovaných jader. Kromě toho je vyžadována softwarová infrastruktura a runtime prostředí, které usnadňují migraci kódu při odpovídající granularitě.

1965. Moorův zákon. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Scaling. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Power Wall. Springer US, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Čipové multiprocesory pro pracovní zatížení serveru. supervizoři-Babak Falsafi a Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki a Babak Falsafi. 2010. Power scaling: konečná překážka 1K-core čipy. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi a Anastasia Ailamaki. 2011. Směrem k temnému křemíku v serverech. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki, a Babak Falsafi. 2007. Databázové servery na čipových Multiprocesorech: omezení a příležitosti.. In CIDR, Vol. 7. Citeseer, 79-87.

Jörg Henkel, Heba Khdr, Santiago Pagani a Muhammad Shafique. 2015. Nové trendy v tmavém křemíku. V roce 2015 52.konference ACM/EDAC/IEEE Design Automation (DAC). IEEE, 1-6.

Mark D Hill a Michael R Marty. 2008. Amdahlův zákon v mnohojádrové éře. Počítač 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen a Chao Chen. 2018. Optimalizace teploty čipu pro mnohojádrové systémy z tmavého křemíku. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 37, 5 (2018), 941-953.

Amir M Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: zvýšení výkonu tepelného vědomí prostřednictvím tmavého křemíkového vzoru. IEEE trans. Comput. 67, 8 (2018), 1062–1077.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.

lg