Foto di Harrison Broadbent su Unsplash

Questa relazione riassume le tendenze tecnologiche che danno luogo al fenomeno del buio di silicio, il suo impatto sul server, e un tentativo di frenare la loro base sul documento di ricerca pubblicato nel 2011 da Hardavellas et al. I chip server non vanno oltre un certo limite. Di conseguenza, una porzione crescente del chip rimane spento, noto come silicio scuro, che non possiamo permetterci di alimentare. I processori multi-core specializzati possono utilizzare un’area di stampi abbondante, sottoutilizzata e con vincoli di potenza fornendo diversi core eterogenei specifici dell’applicazione per migliorare le prestazioni del server e l’efficienza energetica.

I dati crescono a un ritmo esponenziale. Richiede energia computazionale per elaborare ed eseguire calcoli. È stato osservato che i dati stanno crescendo più velocemente della legge di Moore . La legge di Moore afferma che le prestazioni del computer, la velocità di clock della CPU e il numero di transistor per chip raddoppieranno ogni due anni. Per far fronte a questa sfida è necessaria una quantità senza precedenti di energia computazionale. È sufficiente avere un’idea delle richieste di energia con un esempio che il datacenter 1000m2 è 1.5 MW. Al giorno d’oggi, i processori multicore vengono utilizzati per elaborare questi dati. Si ritiene che le prestazioni di un sistema siano direttamente proporzionali al numero di core disponibili. Tuttavia, questa convinzione non è vera perché le prestazioni non seguono la legge di Moore. In realtà, le prestazioni sono molto più lente dei risultati attesi a causa di alcuni vincoli fisici come larghezza di banda, potenza e limiti termici, come mostrato in figura 1.

Figura 1: Vincoli fisici

Si osserva che la larghezza di banda off-chip cresce lentamente. Di conseguenza, i core non possono essere alimentati con dati abbastanza velocemente. Un aumento del numero di transistor non diminuisce la tensione abbastanza velocemente. Un aumento di 10 volte nei transistor ha comportato solo un calo di tensione del 30% nell’ultimo decennio. Allo stesso modo, la potenza è limitata dai limiti di raffreddamento, poiché il raffreddamento non scala affatto. Al fine di alimentare la rivoluzione multicore, il numero di transistor sul chip stanno crescendo in modo esponenziale. Tuttavia, il funzionamento simultaneo di tutti i transistor richiede esponenzialmente più potenza per chip, il che non è possibile a causa dei vincoli fisici spiegati in precedenza. Di conseguenza, un’area esponenzialmente grande del chip viene lasciata inutilizzata, nota come silicio scuro.

L’area di silicio scuro sta crescendo in modo esponenziale, come mostrato dalla linea di tendenza in figura 2. In questo grafico, la dimensione dello stampo delle prestazioni di picco per i diversi carichi di lavoro viene tracciata nel tempo. In parole semplici, possiamo usare solo una frazione dei transistor disponibili su un chip di grandi dimensioni, e il resto dei transistor rimangono spenti.

Figura 2: Die size trend

Ora sorge una domanda, dovremmo sprecare questa grande area scura non utilizzata del chip? Hardavellas et al. riproposto silicio scuro per chip multiprocessori (CMP) con la costruzione di un mare di nuclei specifici per applicazioni eterogenee specializzati. Questi core specializzati alimentano dinamicamente solo alcuni core selezionati progettati esplicitamente per il carico di lavoro specificato. La maggior parte di questi nuclei di applicazioni rimangono per disabilitare/scuro quando non in uso.

Vantaggi dei core specializzati: i core specializzati sono migliori dei core convenzionali perché eliminano le spese generali. Ad esempio, per accedere a un pezzo di dati dalla memoria locale, cache L2, e la memoria principale richiede 50 pJ, 256-1000 pJ, e quasi 16000 pJ di energia, rispettivamente. Queste spese generali appartengono al general-purpose computing, mentre un nucleo specializzato accuratamente progettato in grado di eliminare la maggior parte di queste spese generali. I core specializzati migliorano le prestazioni aggregate e l’efficienza energetica dei carichi di lavoro dei server mitigando l’effetto dei vincoli fisici.

1.1 Metodologia

Per valutare l’estensione del silicio scuro, è fondamentale ottimizzare congiuntamente un gran numero di parametri di progettazione per comporre CMP in grado di raggiungere le massime prestazioni pur rimanendo all’interno dei vincoli fisici. Pertanto, sviluppiamo modelli analitici di primo ordine ottimizzando i componenti principali del processore, come la tensione di soglia di alimentazione &, la frequenza di clock, la dimensione della cache, la gerarchia della memoria e il numero di core. L’obiettivo dei modelli analitici è quello di ricavare progetti di prestazioni di picco e descrivere i vincoli fisici del processore. I modelli parametrizzati dettagliati sono costruiti secondo gli standard ITRS*. Questi modelli aiutano ad esplorare lo spazio di progettazione dei multicore. Si noti che questi modelli non propongono il numero assoluto di core o le dimensioni della cache necessarie per ottenere le massime prestazioni nei processori. Invece, sono modelli analitici proposti per catturare gli effetti del primo ordine del ridimensionamento tecnologico per scoprire le tendenze che portano al silicio scuro. Le prestazioni di questi modelli sono misurate in termini di throughput aggregato del server e il modello viene esaminato autonomamente in informatica eterogenea.

Al fine di costruire tali modelli, abbiamo fatto alcune scelte di configurazione di progettazione per i modelli hardware, larghezza di banda, tecnologia, potenza e area, come descritto nella sezione successiva in dettaglio.

2.1 Modello hardware

I CMP sono costruiti su tre tipi di core, ovvero general-purpose (GPP), embedded (EMB) e specialized (SP). I GPP sono core multithread a quattro vie in ordine scalare e forniscono un throughput elevato in un ambiente server ottenendo 1,7 volte più velocità su un core a thread singolo . I core EMB rappresentano un paradigma di progettazione consapevole del potere e sono simili ai core GPP nelle prestazioni. I core specializzati sono CMP con hardware specializzato, ad esempio GPU, processori di segnali digitali e gate array programmabili sul campo. Solo i componenti hardware saranno powerup, che sono più adatti per il dato carico di lavoro in qualsiasi momento istanza. SP core sovraperformare GPP core 20x con 10x meno potenza.

Modello di tecnologia 2.2

I CMPS sono modellati su tecnologie di fabbricazione a 65 nm, 45 nm, 32 nm e 20 nm seguendo le proiezioni ITRS. I transistor ad alta tensione di soglia Vth sono i migliori per valutare l’abbassamento della corrente di dispersione. Pertanto, i transistor ad alta Vth vengono utilizzati per mitigare l’effetto della parete di potenza . CMPS con transistor ad alte prestazioni per l’intero chip, LOP (bassa potenza operativa) per la cache, e transistor LOP per l’intero chip vengono utilizzati per esplorare le caratteristiche e il comportamento del modello.

2.3 Modello di area

Il modello limita l’area dello stampo a 310mm2. I componenti di interconnessione e system-on-chip occupano il 28% dell’area e il resto del 72% è per core e cache. Possiamo stimare le aree principali scalando i progetti esistenti per ogni tipo di nucleo in base agli standard ITRS. UltraSPARC T1 core è scalato per GPP Core e ARM11 per EMB e SP core.

2.4 Modello di prestazioni

La legge di Amdahl è la base del modello di prestazioni. Assume il parallelismo dell’applicazione del 99%. Le prestazioni di un singolo core vengono calcolate aggregando UIPC (istruzioni utente impegnate per ciclo). UIPCÈ calcolato in termini di tempo di accesso alla memoria dato dalla seguente formula:

AverageMemoryAccessTime = HitTime + MissRate × MissPenalty

UIPC è proporzionale al throughput complessivo del sistema. Formule dettagliate, derivazioni e calcoli del modello di prestazioni sono disponibili all’indirizzo .

2.5 L2 cache miss rate e data-set evolution models

Stimare la cache miss rate per il carico di lavoro dato è importante in quanto svolge un ruolo di governo nelle prestazioni. La cache L2 di dimensioni comprese tra 256KB e 64MB è adattata alla curva utilizzando misurazioni empiriche per stimare il tasso di miss della cache. X-shifted power law
y = α(x + β) ^ γ fornisce la misura migliore per i nostri dati con solo il tasso di errore medio dell ‘ 1,3%. Le formule di ridimensionamento miss-rate sono elencate con dettagli in questo lavoro .

2.6 Off-chip Modello di larghezza di banda

Requisiti di larghezza di banda di chip sono modellati dalla stima di off-chip tasso di attività, vale a dire, frequenza di clock e prestazioni di base. La larghezza di banda off-chip è proporzionale al tasso di miss L2, al numero di core e all’attività principale. La larghezza di banda massima disponibile è data dalla somma del numero di pad e del numero massimo di clock off-chip. Nel nostro modello, trattiamo la memoria impilata 3D come una grande cache L3 grazie alla sua elevata capacità e all’elevata larghezza di banda. Ogni strato di memoria impilata 3D è 8 Gbit a tecnologia 45nm. Il consumo di energia di ogni strato è di 3,7 Watt nel peggiore dei casi. Modelliamo 8 livelli con una capacità totale di 8 GBYTE e un livello aggiuntivo per la logica di controllo. L’aggiunta di 9 strati aumenta la temperatura del chip a 10°C. Tuttavia, teniamo conto della dissipazione di potenza per contrastare questi effetti. Stimiamo che l’impilamento 3D migliorerà il tempo di accesso alla memoria di 32.5% perché rende la comunicazione tra i core e la memoria 3D molto efficiente.

2.7 Modello di potenza

Totale chip di potenza è calcolato aggiungendo la potenza statica e dinamica di ogni componente, come ad esempio core, cache, I/O, interconnessione, ecc. Utilizziamo i dati ITRS per gestire la massima potenza disponibile per i chip raffreddati ad aria con dissipatori di calore. Il nostro modello prenderà limiti di potenza massima come input e scarterà tutto il progetto CMPs che supera i limiti di potenza definiti. Le tecnologie di raffreddamento a liquido possono aumentare la potenza massima tuttavia, non siamo ancora riusciti ad applicare metodi di raffreddamento termico nei nuclei. La potenza dinamica di N core e cache L2 viene calcolata utilizzando le formule menzionate nel documento con i dettagli.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Figura 3: Prestazioni di general-purpose (GPP), chip di multiprocessori

3 ANALISI

Dopo la progettazione, abbiamo bisogno di dimostrare l’utilizzo dei nostri modelli analitici. Esploreremo i progetti di prestazioni di punta dei processori multicore generici e specializzati nelle prossime due sottosezioni. Inoltre, valuteremo anche i conteggi principali per questi progetti e concluderemo con un’analisi comparativa.

3.1 Processori multicore per uso generale

Iniziamo spiegando la progressione del nostro algoritmo di peak performance design-space exploration dai risultati mostrati in figura 3. La figura 3a rappresenta le prestazioni di un CMPS GPP a 20 nm che esegue Apache utilizzando transistor HP (High Performance) sia per core che per cache. Il grafico rappresenta le prestazioni del chip aggregato in funzione della dimensione della cache L2. Significa che una frazione dell’area del dado è dedicata alla cache L2 (rappresentata in MB sull’asse x).

Area curve mostra le prestazioni del design con potenza illimitata e larghezza di banda off-chip, ma avendo vincolato on-chip die area. Più grande la cache meno i core. Anche se alcuni numeri di core si adattano all’area di die rimanente, ogni core esegue al meglio a causa dell’alto tasso di hit della cache più grande. Il vantaggio in termini di prestazioni si ottiene aumentando la cache L2 fino a 64 MB. Dopo questo, è superato dal costo di ridurre ulteriormente il numero di core.

Curva di potenza mostra le prestazioni del disegno in esecuzione alla frequenza massima con potenza limitata a causa di raffreddamento ad aria vincolo, ma avendo illimitato off-chip di larghezza di banda e area. Il vincolo di potenza limita le prestazioni del chip aggregato perché l’esecuzione dei core alla massima frequenza richiede una quantità di energia senza precedenti che limita il design a pochissimi core.

Curva di larghezza di banda rappresenta le prestazioni del progetto in esecuzione ad una potenza illimitata e morire zona avendo limitata off-chip di larghezza di banda. Tale design riduce la pressione della larghezza di banda off-chip a causa della maggiore dimensione della cache disponibile e migliora le prestazioni. Area + curva di potenza rappresenta le prestazioni del design limitato in potenza e area ma larghezza di banda off-chip illimitata. Tale progetto ottimizza congiuntamente la frequenza e la tensione dei core selezionando il design delle prestazioni di picco per ogni dimensione della cache L2.

Peak performance curve rappresenta il design multicore che si adatta a tutti i vincoli fisici. Le prestazioni sono limitate dalla larghezza di banda off-chip all’inizio, ma dopo 24 MB di potenza diventa il principale limitatore di prestazioni. Il design delle prestazioni massime si ottiene all’intersezione delle curve di potenza e larghezza di banda. Un ampio divario tra le prestazioni di picco e la curva di area indica che una vasta area del silicio in GPP non può essere utilizzata per più core a causa di vincoli di potenza.

Figura 3b rappresenta le prestazioni dei disegni che utilizzano ad alte prestazioni (HP) transistor per core e bassa potenza operativa (LOP) per la cache. Allo stesso modo, la figura 3c rappresenta le prestazioni dei progetti con bassa potenza operativa sia per i core che per la cache. I progetti che utilizzano transistor HP possono alimentare solo il 20% dei core che si adattano all’area dello stampo di 20 nm. D’altra parte, i progetti che utilizzano transistor LOP per la cache (figura 3c) producono prestazioni più elevate rispetto ai progetti che utilizzano transistor HP perché consentono cache più grandi che supportano circa il doppio del numero di core, cioè 35-40% core nel nostro caso. Dispositivi LOP resa maggiore efficienza energetica perché sono adatti per implementare sia i core e la cache.

Quindi possiamo concludere che il design di picco delle prestazioni offerto dai processori multicore per uso generale si traduce in una vasta area di silicio scuro quando core e cache sono costruiti con transistor HP. Tuttavia, facendo uso di transistor LOP riduce l’area scura fino a una certa misura come spiegato in precedenza e mostrato in figura 3.

Analisi dei conteggi di core: per analizzare il numero di core utilizzati, la figura 4a traccia il numero teorico di core che possono adattarsi a un’area di die specificata della tecnologia corrispondente insieme ai conteggi di core dei progetti di prestazioni di picco. A causa dei limiti di potenza del chip, i progetti basati su HP sono diventati impossibili dopo il 2013. Anche se i disegni basati su LOP fornito una via da seguire, l’elevato divario mostrato tra il limite area die e disegni LOP indica che una frazione crescente della zona die rimarrà scuro a causa di nuclei sottoutilizzati.

3.2 Processori multicore specializzati

Ora dimostriamo i progetti di prestazioni di picco utilizzando GPP, embedded (EMB) e specialized (SP) core utilizzando transistor LOP aventi die area di 20 nm.

Un’applicazione estrema di core SP viene valutata considerando un ambiente di calcolo specializzato in cui un chip multicore contiene centinaia di diversi core specifici per applicazioni. Vengono attivati solo quei core che sono più utili per l’applicazione in esecuzione. Il resto dei core su chip rimane spento. SP core design offre elevate prestazioni con un minor numero ma più potenti core. Si osserva che i core SP sono altamente efficienti dal punto di vista energetico e superano significativamente i core GPP e EMB.

Core Conta analisi: La figura 4b mostra l’analisi comparativa dei conteggi di core per i progetti con prestazioni di picco tra i tipi di core menzionati. Mostra che i progetti SP di picco delle prestazioni impiegano solo 16-32 core e la cache occupa una grande porzione dell’area del chip die. I design a basso numero di core SP superano gli altri design con un parallelismo del 99,9%. Le caratteristiche ad alte prestazioni dei nuclei SP aumentano l’involucro di potenza più di quanto sia possibile con altri progetti di core. I multicore SP raggiungono un’accelerazione da 2x a 12x rispetto ai progetti multicore EMB e GPP e sono in ultima analisi limitati dalla larghezza di banda off-chip limitata. Una memoria impilata in 3D viene utilizzata per mitigare l’effetto dei vincoli di larghezza di banda oltre i limiti di potenza. L’uso della memoria 3D-stacked spinge il vincolo di larghezza di banda e porta a un design power-constrained ad alte prestazioni (figura 4c). L’eliminazione del collo di bottiglia della larghezza di banda off-chip ci riporta al regime di potenza limitata con un’area di die sottoutilizzata (figura 4b). Riduzione della larghezza di banda off-chip combinando memoria 3D con core specializzati migliora la velocità di 3x per 20nm die size e riduce la pressione sulla dimensione della cache on-chip. D’altra parte, i multiprocessori di chip GPP e EMP possono raggiungere solo meno del 35% del miglioramento delle prestazioni.

Figura 4: Analisi dei conteggi principali

4 STATO ATTUALE DELL’ARTE

Il fenomeno del silicio scuro è iniziato nel 2005. Era il momento in cui i progettisti di processori iniziarono ad aumentare il numero di core per sfruttare il ridimensionamento della legge di Moore piuttosto che migliorare le prestazioni di un single-core. Di conseguenza, è stato scoperto che la legge di Moore e il ridimensionamento di Dennard si comportano al contrario nella realtà. Dennard scaling afferma che la densità dei transistor per unità di area rimane costante con una diminuzione delle sue dimensioni . Inizialmente, i compiti dei processori sono stati suddivisi in diverse aree per ottenere un’elaborazione efficiente e ridurre al minimo l’impatto del silicio scuro. Questa divisione ha portato ai concetti di unità in virgola mobile e in seguito si è capito che la divisione e la distribuzione dei compiti del processore utilizzando moduli specializzati potrebbero anche aiutare ad alleviare il problema del silicio scuro. Questi moduli specializzati hanno portato a un’area del processore più piccola con un’esecuzione efficiente delle attività che ci ha permesso di disattivare un gruppo specifico di transistor prima di avviare un altro gruppo. L’uso di alcuni transistor in modo efficiente in un’attività ci consente di continuare ad avere transistor funzionanti in un’altra parte del processore. Questi concetti sono avanzati ai processori System on Chip (SoC) e System in Chip (SiC). Anche i transistor nei processori Intel si accendono / spengono in base al carico di lavoro. Tuttavia, la progettazione multicore specializzata discussa in questo rapporto richiede ulteriori ricerche per realizzare il suo impatto su altri processori multicore SoC e SiC con requisiti diversi per larghezza di banda e temperatura.

5 LAVORI CORRELATI

In questa sezione, discuteremo altre strategie, tecniche o tendenze proposte in letteratura sul fenomeno del silicio scuro.

Jorg Henkel et al. introdotto nuove tendenze nel silicio scuro nel 2015. Il documento presentato si concentra sugli aspetti termici del silicio scuro. È dimostrato da ampi esperimenti che il budget totale di potenza del chip non è l’unica ragione dietro il silicio scuro, la densità di potenza e gli effetti termici correlati stanno giocando un ruolo importante in questo fenomeno. Pertanto propongono una potenza termica sicura (TSP) per un budget energetico più efficiente. Una nuova tendenza proposta afferma che la considerazione del vincolo di temperatura di picco fornisce una riduzione dell’area scura del silicio. Inoltre, si propone anche che l’uso della scala dinamica della frequenza della tensione aumenti le prestazioni complessive del sistema e diminuisca il silicio scuro .

Anil et al. presentato un sistema di gestione delle risorse in fase di esecuzione nel 2018 noto come adBoost. Utilizza una strategia di mappatura delle applicazioni run-time consapevole del silicio scuro per ottenere un miglioramento delle prestazioni in termini di calore nei processori multicore. Beneficia di patterning (PAT) di silicio scuro. PAT è una strategia di mappatura che distribuisce uniformemente la temperatura attraverso il chip per migliorare il budget di potenza utilizzabile. Offre temperature più basse, budget di potenza più elevato e sostiene i periodi più estesi di potenziamento. Gli esperimenti dimostrano che produce un throughput del 37% migliore rispetto ad altri booster di prestazioni all’avanguardia .

Lei Yang et al. proposto un modello termico nel 2017 per risolvere il problema fondamentale di determinare la capacità del sistema multiprocessore on-chip di eseguire il lavoro desiderato mantenendo la sua affidabilità e mantenendo ogni nucleo entro un intervallo di temperatura sicuro. Il modello termico proposto viene utilizzato per la previsione rapida della temperatura del chip. Trova l’assegnazione ottimale task-to-core prevedendo la temperatura minima di picco del chip. Se la temperatura minima di picco del chip supera in qualche modo il limite di temperatura sicuro, un algoritmo euristico appena proposto noto come temperatura vincolata task selection (TCTS) reagisce per ottimizzare le prestazioni del sistema entro un limite di temperatura sicuro del chip. L’ottimalità dell’algoritmo TCTS è formalmente dimostrata e ampie valutazioni delle prestazioni mostrano che questo modello riduce la temperatura di picco del chip di 10°C rispetto ad altre tecniche tradizionali. Le prestazioni complessive del sistema sono migliorate del 19,8% in condizioni di limitazione della temperatura sicura. Infine, viene condotto un vero e proprio caso di studio per dimostrare la fattibilità di questa tecnica sistematica .

6 CONCLUSIONE

Il ridimensionamento continuo dei processori multicore è limitato da vincoli di potenza, temperatura e larghezza di banda. Questi vincoli limitano la progettazione multicore convenzionale a scalare oltre poche decine a poche centinaia di core. Di conseguenza, una grande parte di un chip del processore si sacrifica per consentire al resto del chip di continuare a funzionare. Abbiamo discusso una tecnica per riutilizzare l’area dello stampo inutilizzata (silicio scuro) costruendo multicore specializzati. I multicore specializzati (SP) implementano un gran numero di core specifici del carico di lavoro e alimentano solo i core specifici che corrispondono strettamente ai requisiti del carico di lavoro in esecuzione. Viene proposto un modello dettagliato del primo ordine per analizzare il design dei multicore SP considerando tutti i vincoli fisici. Per analizzare le prestazioni del modello vengono eseguiti ampi esperimenti di carico di lavoro rispetto ad altri multicore di uso generale. SP multicore sovraperformare altri disegni da 2x a 12x. Sebbene i multicore SP siano un design accattivante, i carichi di lavoro moderni devono essere caratterizzati per identificare i segmenti computazionali che fungono da candidati per lo scaricamento su core specializzati. Inoltre, sono necessari anche l’infrastruttura software e l’ambiente di runtime per facilitare la migrazione del codice alla granularità appropriata.

1965. La legge di Moore. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Scaling. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Muro di potere. Springer Stati Uniti, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Multiprocessori chip per carichi di lavoro server. supervisori-Babak Falsafi e Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki e Babak Falsafi. 2010. Power scaling: l’ultimo ostacolo ai chip 1k-core. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi e Anastasia Ailamaki. 2011. Verso silicio scuro nei server. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki e Babak Falsafi. 2007. Server di database su Chip Multiprocessori: limitazioni e opportunità.. Nel CIDR, Vol. 7. Citeseer, 79-87.

Jörg Henkel, Heba Khdr, Santiago Pagani e Muhammad Shafique. 2015. Nuove tendenze nel silicio scuro. Nel 2015 52nd ACM / EDAC / IEEE Design Automation Conference (DAC). IEEE, 1-6.

Mark D Hill e Michael R Marty. 2008. La legge di Amdahl nell’era multicore. Computer 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen e Chao Chen. 2018. Ottimizzazione della temperatura del chip per sistemi a molti core in silicio scuro. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 37, 5 (2018), 941-953.

Amir M Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: Prestazioni consapevoli termica aumentando attraverso scuro silicio Patterning. IEEE Trans. Calcolo. 67, 8 (2018), 1062–1077.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

lg