Kuva: Harrison Broadbent Unsplash

tässä raportissa on yhteenveto teknologisista suuntauksista, jotka aiheuttavat tumman piin ilmiön, sen vaikutuksen palvelimiin ja pyrkimyksen hillitä niitä Hardavellas et al: n vuonna 2011 julkaiseman tutkimuksen perusteella. Palvelinsirut eivät skaalaudu tietyn rajan yli. Tämän seurauksena yhä suurempi osa sirusta pysyy virrattomana, joka tunnetaan nimellä tumma pii, johon meillä ei ole varaa. Erikoistuneet moniydinprosessorit voivat hyödyntää runsasta, vajaakäytettyä ja tehorajoitteista die-aluetta tarjoamalla monipuolisia sovelluskohtaisia heterogeenisiä ydintä palvelimen suorituskyvyn ja tehon parantamiseksi.

tiedot kasvavat eksponentiaalista vauhtia. Se vaatii laskennallisen energian käsitellä ja suorittaa laskelmia. On havaittu, että data kasvaa nopeammin kuin Mooren laki . Mooren lain mukaan tietokoneen suorituskyky, suorittimen kellotaajuus ja transistorien määrä sirua kohti kaksinkertaistuu joka toinen vuosi. Tähän haasteeseen selviytymiseen tarvitaan ennennäkemätön määrä laskennallista energiaa. Riittää, että saat käsityksen energiantarpeesta esimerkillä, että 1000m2 datakeskus on 1,5 MW. Nykyään tämän tiedon käsittelyyn käytetään multicore-prosessoreita. Uskotaan, että järjestelmän suorituskyky on suoraan verrannollinen käytettävissä olevien ydinten määrään. Uskomus ei kuitenkaan pidä paikkaansa, sillä suoritus ei noudata Mooren lakia. Todellisuudessa suorituskyky on paljon hitaampi kuin odotetut tulokset johtuen joistakin fyysisistä rajoitteista, kuten kaistanleveydestä, tehosta ja lämpörajoista, kuten kuvassa 1 esitetään.

Kuva 1: fyysiset rajoitteet

on havaittu, että sirujen ulkopuolinen kaistanleveys kasvaa hitaasti. Tämän vuoksi ytimiin ei voida syöttää tarpeeksi nopeasti dataa. Transistorien määrän kasvu ei laske jännitettä tarpeeksi nopeasti. Transistorien 10-kertainen lisäys johti vain 30 prosentin jännitehäviöön viime vuosikymmenellä. Vastaavasti tehoa rajoittavat jäähdytysrajat, sillä jäähdytys ei laajene lainkaan. Multicore-vallankumouksen polttoaineeksi sirulla olevien transistorien määrä kasvaa eksponentiaalisesti. Kaikkien transistorien käyttö samanaikaisesti vaatii kuitenkin eksponentiaalisesti enemmän tehoa sirua kohden, mikä ei vain ole mahdollista aiemmin selitettyjen fyysisten rajoitteiden vuoksi. Tämän seurauksena eksponentiaalisesti suuri alue sirusta jää hyödyntämättä, jota kutsutaan tummaksi piiksi.

tumman piin alue kasvaa eksponentiaalisesti, kuten kuvan 2 trendiviiva osoittaa. Tässä kaaviossa eri työkuormien huipputehon die-koko piirretään ajan kanssa. Yksinkertaisesti sanottuna, voimme käyttää vain murto-osa transistorit saatavilla suuri siru,ja loput transistorit pysyvät virta pois.

kuva 2: Die size trend

nyt herää kysymys, pitäisikö meidän tuhlata tämä suuri käyttämätön tumma alue siru? Hardavellas et al. repurposed tumma pii siru multiprocessors (CMPs) rakentamalla meri erikoistunut heterogeeninen sovellus erityisiä ydintä. Nämä erikoistuneet ytimet dynaamisesti virtaa vain muutama valittu ytimet suunniteltu nimenomaisesti tietyn työmäärän. Useimmat näistä sovellusytimet jäävät poistaa / tumma, kun ei käytössä.

Erikoisytimien edut: Erikoisytimet ovat parempia kuin perinteiset hylsyt, koska ne poistavat yleiskustannukset. Esimerkiksi paikallisen muistin, L2-välimuistin ja päämuistin datan saaminen vaatii vastaavasti 50 pJ, 256-1000 pJ ja lähes 16000 pJ energiaa. Nämä yleiskustannukset kuuluvat yleiskäyttöön computing, kun taas huolellisesti suunniteltu erikoistunut ydin voi poistaa useimmat näistä yleiskustannukset. Erikoistuneet ytimet parantavat palvelimen työkuormituksen suorituskykyä ja energiatehokkuutta lieventämällä fyysisten rajoitteiden vaikutusta.

1.1 menetelmä

tumman piin laajuuden arvioimiseksi on ratkaisevan tärkeää optimoida yhdessä suuri määrä suunnitteluparametreja sellaisten CMP: iden muodostamiseksi, jotka pystyvät saavuttamaan huipputehon pysyen fyysisten rajoitteiden rajoissa. Siksi kehitämme ensimmäisen kertaluvun analyyttisiä malleja optimoimalla prosessorin pääkomponentteja, kuten tarjonta & kynnysjännite, kellotaajuus, välimuistin koko, muistin hierarkia ja ytimen määrä. Analyyttisten mallien tavoitteena on johtaa huippusuoritusmalleja ja kuvata prosessorin fyysisiä rajoitteita. Yksityiskohtaiset parametrisoidut mallit on rakennettu ITRS * – standardien mukaisesti. Nämä mallit auttavat multicoresin suunnittelutilan tutkimisessa. Huomaa, että nämä mallit eivät esitä ytimien absoluuttista määrää tai välimuistin kokoa, joka tarvitaan suorittimien huipputehon saavuttamiseksi. Sen sijaan ne ovat analyyttisiä malleja, joita on ehdotettu kuvaamaan teknologiakaalauksen ensimmäisen asteen vaikutuksia tummaan piihin johtavien trendien paljastamiseksi. Näiden mallien suorituskykyä mitataan kootun palvelimen läpimenon avulla, ja mallia tarkastellaan autonomisesti heterogeenisessä tietojenkäsittelyssä.

tällaisten mallien rakentamiseksi olemme tehneet joitakin suunnittelukokoonpanovalintoja laitteisto -, kaistanleveys -, teknologia -, teho-ja aluemalleille, kuten seuraavassa osassa kuvataan yksityiskohtaisesti.

2.1 Laitteistomalli

CMP: t on rakennettu kolmentyyppisistä ytimistä, eli yleiskäyttöisistä (GPP), sulautetuista (EMB) ja erikoistuneista (SP). GPP: t ovat skalaarisia nelisuuntaisia monisäikeisiä ytimiä ja tarjoavat suuren suoritustehon palvelinympäristössä saavuttamalla 1,7 x enemmän nopeutta yksisäikeisen ytimen yli . EMB-ytimet edustavat valtatietoista suunnitteluparadigmaa, ja ne muistuttavat suorituskyvyltään GPP-ytimiä. Erikoistuneet ytimet ovat CMPs erikoistuneilla laitteistoilla, esim., GPU, digitaaliset signaaliprosessorit, ja kenttä-ohjelmoitavat porttijärjestelmät. Vain ne laitteiston osat powerup, jotka soveltuvat parhaiten tietyn työmäärän milloin tahansa esimerkiksi. SP-ytimet päihittävät GPP-ytimet 20x 10x pienemmällä teholla.

2.2 Teknologiamalli

CMPs mallinnetaan 65nm: n, 45nm: n, 32nm: n ja 20nm: n valmistustekniikoilla itrs-projektioiden mukaisesti. Transistorit, joilla on korkea kynnysjännite Vth, ovat parhaita arvioimaan vuotovirran alentamista. Siksi korkea Vth transistorit käytetään lieventämään vaikutus power wall . CMPs korkean suorituskyvyn transistorit koko siru, LOP (Alhainen käyttöteho) välimuisti, ja LOP transistorit koko siru käytetään tutkia ominaisuuksia ja käyttäytymistä mallin.

2.3 Aluemalli

malli rajoittaa kuopan pinta-alan 310mm2: een. Interconnect-ja system-on-chip-komponentit vievät 28% pinta-alasta, ja loput 72% on ytimille ja välimuistille. Voimme arvioida ydinalueita skaalaamalla olemassa olevia malleja kullekin ydintyypille ITRS-standardien mukaisesti. UltraSPARC T1-ydin skaalataan GPP-ytimille ja ARM11 EMB-ja SP-ytimille.

2.4 Esitysmalli

Amdahlin laki on esitysmallin perusta. Siinä oletetaan 99%: n sovellusparallisuus. Yhden ytimen suorituskyky lasketaan aggregoimalla uipc (käyttöohjeet, jotka sidotaan sykliä kohti). Uipc lasketaan muistin käyttöajan mukaan seuraavalla kaavalla:

AverageMemoryAccessTime = HitTime + MissRate × Misspenality

UIPC on verrannollinen järjestelmän kokonaissuoritukseen. Esitysmallin yksityiskohtaiset kaavat, johdannaiset ja laskelmat ovat saatavilla osoitteessa .

2,5 L2 cache miss rate and data-set evolution models

cache miss rate for the government working is important as it is a governing role in the performance. L2 välimuisti koko välillä 256KB ja 64MB on käyrä-asennettu empiirisiä mittauksia arvioida välimuistin miss korko. X-shifted power law
y = α (x + β )^γ tarjoaa datallemme parhaiten sopivan vain 1,3%: n keskimääräisellä virhetasolla. Miss-rate skaalaus kaavoja on lueteltu yksityiskohtia tässä työssä .

2.6 Off-chip-kaistanleveysmalli

Chip-kaistanleveysvaatimukset mallinnetaan off-chip-aktiivisuusnopeuden eli kellotaajuuden ja ytimen suorituskyvyn estimoinnin perusteella. Off-chip kaistanleveys on verrannollinen L2 miss korko, core count, ja ydinaktiivisuus. Suurin käytettävissä oleva kaistanleveys saadaan laskemalla yhteen pad-ja off-chip-kellojen lukumäärä. Mallissamme käsittelemme 3D-pinottua muistia suurena L3-välimuistina sen suuren kapasiteetin ja suuren kaistanleveyden vuoksi. Jokainen kerros 3D pinottu muisti on 8 Gbits 45nm tekniikka. Jokaisen kerroksen energiankulutus on pahimmassa tapauksessa 3,7 wattia. Mallimme 8 kerrosta, joiden kokonaiskapasiteetti on 8 GBytes ja yksi lisäkerros ohjauslogiikkaa varten. 9 kerroksen lisääminen nostaa sirun lämpötilan 10°C: seen.kuitenkin laskemme tehohäviön näiden vaikutusten torjumiseksi. Arvioimme, että 3D-pinoaminen parantaa muistin käyttöaikaa 32: lla.5% , koska se tekee ydinten ja 3D-muistin välisestä viestinnästä erittäin tehokasta.

2.7 tehomalli

sirun kokonaisteho lasketaan lisäämällä kunkin komponentin, kuten ytimen, välimuistin, I/O: n, interconnect: n jne.staattinen ja dynaaminen teho. Käytämme ITRS-tietoja ilmajäähdytteisten sirujen, joissa on jäähdytyslevyt, maksimitehon hallintaan. Mallimme ottaa maksimitehorajat tulona ja hylkää kaikki CMPS-suunnittelu ylittää määritellyt tehorajat. Nestejäähdytystekniikat voivat lisätä maksimitehoa, mutta emme ole vielä onnistuneet soveltamaan lämpöjäähdytysmenetelmiä ytimissä. N-ydinten ja L2-välimuistin dynaaminen teho lasketaan käyttäen paperissa mainittuja kaavoja yksityiskohtineen.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

kuva 3: yleiskäyttöisten (GPP) sirujen Moniprosessorien suorituskyky

3 analyysi

suunnittelun jälkeen on osoitettava analyyttisten malliemme käyttö. Tutkimme yleiskäyttöisten ja erikoistuneiden multicore-suorittimien huippusuorituskykyä kahdessa seuraavassa osassa. Lisäksi arvioimme näiden mallien ydinarvot ja päätämme ne vertailevaan analyysiin.

3.1 Yleiskäyttöiset moniprosessorit

aloitamme selittämällä huippusuorituskykyalgoritmimme etenemistä kuvassa 3 esitettyjen tulosten avulla. Kuva 3a edustaa suorituskykyä 20nm GPP CMPs käynnissä Apache käyttäen korkean suorituskyvyn (HP) transistorit sekä ytimet ja välimuisti. Kuvaaja kuvaa aggregaatin sirun suorituskykyä L2-välimuistin koon funktiona. Se tarkoittaa, että murto-osa die alue on omistettu L2 välimuisti (edustettuna MB X-akselilla).

Aluekäyrä näyttää mallin suorituskyvyn rajoittamattomalla teholla ja off-chip-kaistanleveydellä, mutta rajoittuneella on-chip die-alueella. Suurempi välimuisti vähemmän ydintä. Vaikka muutama määrä ydintä mahtuu jäljellä die alueella, jokainen ydin toimii parhaiten, koska korkea osuma nopeus suurempi välimuisti. Suorituskyky hyöty saavutetaan lisäämällä L2 välimuisti asti 64MB. Tämän jälkeen se on suurempi kuin ydinten määrän vähentämisen kustannukset.

tehokäyrä näyttää mallin suorituskyvyn, joka toimii suurimmalla taajuudella ilmanjäähdytyksen rajoituksen vuoksi rajoitetulla teholla, mutta jolla on rajaton off-chip kaistanleveys ja pinta-ala. Tehorajoitus rajoittaa yhteenlasketun sirun suorituskykyä, koska ydinten käyttäminen maksimitaajuudella vaatii ennennäkemättömän määrän energiaa, joka rajoittaa suunnittelun vain hyvin harvoihin ytimiin.

Kaistanleveyskäyrä kuvaa mallin suorituskykyä rajoittamattomalla teholla ja muotin alueella, jolla on rajoitettu off-chip kaistanleveys. Tällainen muotoilu vähentää off-chip kaistanleveys paine suuremman käytettävissä välimuistin koko ja parantaa suorituskykyä. Area+tehokäyrä edustaa suorituskykyä suunnittelun rajoitettu teho ja alue, mutta rajoittamaton off-chip kaistanleveys. Tällainen muotoilu optimoi yhteisesti ydinten taajuuden ja jännitteen valitsemalla kunkin L2-välimuistin koon huippusuunnittelun.

huippusuorituskäyrä edustaa multicore-rakennetta, joka mukautuu kaikkiin fyysisiin rajoitteisiin. Suorituskyky on rajoitettu off-chip kaistanleveys alussa, mutta jälkeen 24 MB teho tulee tärkein suorituskyvyn rajoitin. Huipputehosuunnittelu saavutetaan teho-ja kaistanleveyskäyrien risteyksessä. Suuri kuilu huipputehon ja pinta-alakäyrän välillä osoittaa, että GPP: ssä olevaa laajaa pii-aluetta ei voida käyttää useampiin ytimiin tehorajoitusten vuoksi.

kuva 3b kuvaa niiden mallien suorituskykyä, jotka käyttävät korkean suorituskyvyn (HP) transistoreja ytimille ja alhaisen toimintatehon (LOP) välimuistille. Samoin kuva 3c kuvaa mallien suorituskykyä pienellä käyttöteholla sekä ytimille että välimuistille. Mallit käyttävät HP transistorit voi teho vain 20% ydintä, jotka sopivat kuolee alueella 20 nm. Toisaalta, mallit käyttäen lop transistorit välimuisti (kuva 3c) tuottaa paremman suorituskyvyn kuin mallit käyttävät HP transistorit, koska ne mahdollistavat suurempia välimuisteja, jotka tukevat noin kaksinkertainen määrä ytimiä, eli 35-40% ydintä meidän tapauksessamme. LOP-laitteet tuottavat suuremman tehotehokkuuden, koska ne soveltuvat sekä ytimien että välimuistin toteuttamiseen.

näin ollen voimme päätellä, että yleiskäyttöisten multicore-suorittimien tarjoama huippusuorituskyky tuottaa suuren alueen tummaa piitä, kun ytimet ja välimuistit on rakennettu HP-transistoreilla. Kuitenkin hyödyntämällä LOP transistorit vähentää tumma alue jopa jossain määrin kuten aiemmin ja Kuvassa 3.

Ydinmäärien analyysi: hyödynnettyjen ydinmäärien analysoimiseksi kuvassa 4a esitetään niiden ydinmäärien teoreettinen määrä, jotka mahtuvat vastaavan teknologian tietylle alueelle, sekä huippusuoritusmallien ydinmäärät. Sirujen tehorajoitusten vuoksi HP-pohjaiset mallit kävivät mahdottomiksi vuoden 2013 jälkeen. Vaikka LOP – pohjaiset mallit tarjosivat tien eteenpäin, suuri kuilu die-alueen rajan ja LOP-mallien välillä osoittaa, että yhä suurempi osa die-alueesta pysyy pimeänä vajaakäytössä olevien ydinten vuoksi.

3.2 Specialized multicore processors

now we demonstrate the peak performance designs using GPP, embed (EMB), and specialized (SP) cores using LOP transistors having die area of 20 nm.

SP-ydinten äärimmäistä soveltamista arvioidaan ottamalla huomioon erikoistunut laskentaympäristö, jossa multicore-siru sisältää satoja erilaisia sovelluskohtaisia ytimiä. Vain ne ytimet aktivoituvat, jotka ovat hyödyllisimpiä käynnissä olevalle sovellukselle. Loput on-chip-ytimistä ovat edelleen sammuksissa. SP-ydinten muotoilu tarjoaa korkean suorituskyvyn vähemmillä, mutta tehokkaammilla ytimillä. On havaittu, että SP-ytimet ovat erittäin tehokkaita ja ne päihittävät merkittävästi GPP-ja EMB-ytimet.

Ydinmäärien Analyysi: Kuvassa 4b esitetään vertaileva analyysi ydinmääristä huippusuoritusmallien osalta kaikissa mainituissa ydintyypeissä. Se osoittaa, että peak performance SP-mallit työllistävät vain 16-32 ydintä ja välimuisti vie suuren osan die-sirun alueesta. Low-core-count SP-mallit päihittävät muut mallit 99,9%: n yhdensuuntaisuudella. SP-ydinten suorituskykyominaisuudet lisäävät tehokuorta enemmän kuin on mahdollista muiden ydinmallien kanssa. SP multicores saavuttaa 2x 12x speedup yli EMB ja GPP multicore malleja ja lopulta rajoittaa rajoitettu off-chip kaistanleveys. 3D-pinottua muistia käytetään lieventämään kaistanleveysrajoitusten vaikutusta yli tehorajojen. 3D-pinotun muistin käyttö työntää kaistanleveysrajoitusta ja johtaa korkean suorituskyvyn tehorajoitteiseen suunnitteluun (kuva 4c). Off-chip kaistanleveyden pullonkaulan poistaminen vie meidät takaisin tehorajoitettuun järjestelmään, jolla on alikäytetty muotin alue (kuva 4b). Vähentäminen off-chip kaistanleveys yhdistämällä 3D muisti erikoistunut ydintä parantaa speedup 3x varten 20nm kuolee koko ja vähentää painetta on-chip välimuistin kokoa. Toisaalta GPP-ja EMP-sirujen moniprosessorit voivat saavuttaa vain alle 35 prosenttia suorituskyvyn parantamisesta.

Kuva 4: Ydinmäärien analyysi

4 nykytilanne

pimeän piin ilmiö alkoi vuonna 2005. Se oli aika, jolloin prosessorisuunnittelijat alkoivat lisätä ytimen määrää hyödyntääkseen Mooren lain skaalausta yhden ytimen suorituskyvyn parantamisen sijaan. Tämän seurauksena selvisi, että Mooren laki ja Dennardin skaalaus käyttäytyvät todellisuudessa käänteisesti. Dennard scaling toteaa, että transistorien tiheys pinta-alayksikköä kohti pysyy vakiona sen koon pienentyessä . Aluksi prosessorien tehtävät jaettiin eri osa-alueisiin tehokkaan käsittelyn saavuttamiseksi ja tumman piin vaikutuksen minimoimiseksi. Tämä jako johti liukulukuyksiköiden käsitteisiin ja myöhemmin huomattiin, että suorittimen tehtävien jakaminen ja jakaminen erikoistuneita moduuleja käyttäen voisi auttaa myös lievittämään pimeän piin ongelmaa. Nämä erikoismoduulit johtivat pienempään suoritinalueeseen tehokkaalla tehtävien suorituksella, jonka avulla pystyimme sammuttamaan tietyn transistoriryhmän ennen toisen ryhmän käynnistämistä. Muutaman transistorin tehokas käyttö yhdessä tehtävässä mahdollistaa sen, että meillä on jatkuvasti toimivat transistorit suorittimen toisessa osassa. Nämä käsitteet edenneet System on Chip (SoC) ja System in Chip (Sic) prosessorit. Myös Intelin suorittimien transistorit kytkeytyvät päälle / pois työmäärän mukaan. Tässä raportissa käsitelty erikoistunut multicore-suunnittelu vaatii kuitenkin lisätutkimuksia sen vaikutusten ymmärtämiseksi muihin SoC – ja SiC-multicore-prosessoreihin, joilla on erilaiset kaistanleveyttä ja lämpötilaa koskevat vaatimukset.

5 aiheeseen liittyvä teos

tässä osiossa käsitellään muita strategioita, tekniikoita tai suuntauksia, joita kirjallisuudessa on ehdotettu tumman piin ilmiöstä.

Jorg Henkel ym. esitteli uusia trendejä tummassa piissä vuonna 2015. Esitellyssä paperissa keskitytään tumman piin lämpöön liittyviin näkökohtiin. Laajoilla kokeiluilla on osoitettu, että sirun kokonaistehobudjetti ei ole ainoa syy pimeän piin, tehotiheyden ja siihen liittyvien lämpövaikutusten taustalla on myös merkittävä rooli tässä ilmiössä. Siksi he ehdottavat Lämpösuojatehoa (TSP) tehokkaammaksi tehobudjetiksi. Uusi ehdotettu suuntaus todetaan, että huomioon huippu lämpötilarajoite vähentää pimeän alueen piin. Lisäksi ehdotetaan, että dynaamisen jännitteen taajuuden skaalauksen käyttö lisää järjestelmän yleistä suorituskykyä ja vähentää pimeää piitä .

Anil ym. esitteli vuonna 2018 ajonaikaisen resurssinhallintajärjestelmän, joka tunnetaan nimellä adBoost. Se käyttää dark silicon aware run-time application mapping-strategiaa lämpötietoisen suorituskyvyn lisäämiseksi multicore-prosessoreissa. Se hyötyy tumman piin kuvioinnista (PAT). PAT on kartoitusstrategia, joka jakaa lämpötilan tasaisesti koko sirulle hyödyntävän tehobudjetin parantamiseksi. Se tarjoaa alhaisemmat lämpötilat, suurempi teho budjetti, ja ylläpitää enemmän pitkiä aikoja lisäämällä. Kokeet osoittavat, että se tuottaa 37 prosenttia parempi suoritusteho verrattuna muihin state-of-the-art suorituskyky vahvistimet .

Lei Yang ym. ehdotti lämpö malli vuonna 2017 ratkaista perustavanlaatuinen ongelma määrittää valmiudet on-chip moniprosessorijärjestelmä ajaa halutun työn ylläpitämällä sen luotettavuus ja pitää jokainen ydin turvallisella lämpötila-alueella. Ehdotettua lämpömallia käytetään nopeaan sirujen lämpötilan ennustamiseen. Se löytää optimaalisen tehtävän-ytimeen tehtävän ennustamalla pienin siru huippu lämpötila. Jos pienin siru huippu lämpötila jotenkin ylittää turvallisen lämpötilan raja, äskettäin ehdotettu heuristinen algoritmi tunnetaan lämpötila rajoitettu tehtävä valinta (TCTS) reagoi optimoida järjestelmän suorituskykyä sisällä siru turvallinen lämpötila raja. Tcts-algoritmin optimaalisuus on virallisesti todistettu, ja laajat suorituskykyarvioinnit osoittavat, että tämä malli vähentää sirun huippulämpötilaa 10°C: lla verrattuna muihin perinteisiin tekniikoihin. Järjestelmän yleinen suorituskyky paranee 19,8% turvallisen lämpötilan rajoituksella. Lopuksi tehdään todellinen tapaustutkimus tämän systemaattisen tekniikan toteutettavuuden osoittamiseksi .

6 CONCLUSION

Multicore-suorittimien jatkuvaa skaalausta rajoittavat teho -, lämpötila-ja kaistanleveysrajoitukset. Nämä rajoitteet rajoittavat perinteisen multicore-mallin mittakaavaan vain muutamasta kympistä alhaisiin satoihin ytimiin. Tämän seurauksena suuri osa prosessorisirusta uhrautuu, jotta muu siru voi jatkaa toimintaansa. Olemme keskustelleet tekniikasta, jolla käyttämätön die-alue (tumma pii) voidaan palauttaa rakentamalla erikoistuneita monikerroksia. Specialized (SP) multicores toteuttaa suuren määrän työmääräkohtaisia ytimiä ja käynnistää vain ne tietyt ytimet, jotka vastaavat tarkasti suoritustyön vaatimuksia. On ehdotettu yksityiskohtaista ensimmäisen kertaluvun mallia, jossa analysoidaan SP multicoresin rakennetta ottamalla huomioon kaikki fyysiset rajoitteet. Mallin suorituskyvyn analysoimiseksi tehdään mittavia työmääräkokeita verrattuna muihin yleiskäyttöisiin multicoreihin. SP multicores päihittää muut mallit 2x-12x. Vaikka SP multicores ovat houkutteleva muotoilu, moderni työkuormat on ominaista tunnistaa laskennallisen segmentit toimivat ehdokkaina off-lastaus erikoistunut ydintä. Lisäksi tarvitaan ohjelmistoinfrastruktuuria ja ajonaikaista ympäristöä helpottamaan koodin siirtymistä sopivalla rakeisuudella.

1965. Mooren laki. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Scaling. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Voimaseinä. Springer US, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Sirujen moniprosessorit palvelimen työkuormille. valvojat-Babak Falsafi ja Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki ja Babak Falsafi. 2010. Power skaalaus: perimmäinen este 1K-core pelimerkkejä. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi ja Anastasia Ailamaki. 2011. Kohti pimeää piitä palvelimissa. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki ja Babak Falsafi. 2007. Tietokantapalvelimet siru Multiprocessors: rajoitukset ja mahdollisuudet.. In CIDR, Vol. 7. Citeseer, 79-87.

Jörg Henkel, Heba DDR, Santiago Pagani ja Muhammad Shafique. 2015. Uudet trendit tummassa piissä. Vuonna 2015 52.ACM/EDAC/IEEE Design Automation Conference (DAC). IEEE, 1-6.

Mark D Hill ja Michael R Marty. 2008. Amdahlin laki multiforen aikakaudella. Tietokone 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen ja Chao Chen. 2018. Sirujen lämpötilaoptimointi pimeän piin moniydinjärjestelmille. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 37, 5 (2018), 941-953.

Amir M Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: Thermal Aware Performance Boosting through Dark Silicon Patterning. IEEE Trans. Comput. 67, 8 (2018), 1062–1077.

Vastaa

Sähköpostiosoitettasi ei julkaista.

lg