Foto por Harrison Broadbent em Unsplash

Este relatório resume as tendências tecnológicas que dão origem ao fenômeno do escuro silício, o seu impacto sobre os servidores, e um esforço para conter-los com base no artigo científico publicado em 2011 pela Hardavellas et al. Os chips do servidor não ultrapassam um determinado limite. Como resultado, uma porção crescente do chip permanece desligado, conhecido como silício escuro, que não podemos dar ao luxo de poder. Processadores multi-core especializados podem fazer uso de abundantes, subutilizados e com restrição de potência, fornecendo diversos núcleos heterogêneos específicos de aplicação para melhorar o desempenho do servidor e a eficiência de energia.

os dados estão crescendo a uma taxa exponencial. Ele requer energia computacional para processar e executar computações. Tem sido observado que os dados estão crescendo mais rápido do que a Lei de Moore . A Lei de Moore afirma que o desempenho do computador, a velocidade do relógio da CPU, e o número de transistores por chip duplicarão a cada dois anos. Uma quantidade sem precedentes de energia computacional é necessária para lidar com este Desafio. Basta ter uma idéia das demandas de energia por um exemplo de que o datacenter 1000m2 é de 1,5 MW. Atualmente, processadores multicores são usados para processar esses dados. Acredita-se que o desempenho de um sistema é diretamente proporcional ao número de núcleos disponíveis. No entanto, esta crença não é verdadeira porque o desempenho não segue a Lei de Moore. Na realidade, o desempenho é muito mais lento do que os resultados esperados devido a algumas restrições físicas como largura de banda, potência e limites térmicos, como mostrado na Figura 1.

Figura 1: Restrições Físicas

observa-se que off-chip de largura de banda cresce lentamente. Como resultado, os núcleos não podem ser alimentados com dados suficientemente rápidos. Um aumento no número de transistores não diminui a voltagem suficientemente rápido. Um aumento de 10x nos transistores resultou em apenas uma queda de tensão de 30% na última década. Da mesma forma, a potência é restringida por limites de refrigeração, como o arrefecimento não escala em tudo. A fim de alimentar a revolução multicore, o número de transistores no chip estão crescendo exponencialmente. No entanto, operar todos os transistores simultaneamente requer exponencialmente mais potência por chip, o que não é possível devido às restrições físicas explicadas anteriormente. Como resultado, uma área exponencialmente Grande do chip é deixada não utilizável, conhecido como silício escuro.

a área de silício escuro está crescendo exponencialmente, como mostrado pela linha de tendência na Figura 2. Neste gráfico, o tamanho da matriz do Pico de desempenho para as diferentes cargas de trabalho é plotado com o tempo. Em palavras simples, só podemos usar uma fração dos transistores disponíveis em um chip grande, e o resto dos transistores permanecem desligados.

Figura 2: tamanho do núcleo de tendência

Agora, uma pergunta surge, devemos desperdiçar esta grande inutilizados área escura do chip? Hardavelas et al. silício escuro reutilizado para multiprocessadores de chips (CMPs) através da construção de um mar de núcleos especializados heterogêneos específicos de Aplicação. Estes núcleos especializados dinamicamente energizam apenas alguns núcleos selecionados projetados explicitamente para a carga de trabalho dada. A maioria destes núcleos de aplicação permanecem para desativar / dark quando não estão em uso.

benefícios dos núcleos especializados: os núcleos especializados são melhores do que os núcleos convencionais porque eliminam as despesas gerais. Por exemplo, para acessar um pedaço de dados a partir da memória local, cache L2, e a memória principal requer 50 pJ, 256-1000 pJ, e quase 16000 pJ de energia, respectivamente. Estas despesas gerais pertencem à computação de propósito geral, enquanto um núcleo especializado cuidadosamente projetado pode eliminar a maioria dessas despesas gerais. Núcleos especializados melhoram o desempenho agregado e a eficiência energética das cargas de trabalho dos servidores, mitigando o efeito das restrições físicas.Metodologia

1.1

para avaliar a extensão do Silício escuro, é crucial otimizar em conjunto um grande número de Parâmetros de projeto para compor CMPs que são capazes de atingir o pico de desempenho, mantendo-se dentro das restrições físicas. Portanto, desenvolvemos modelos analíticos de primeira ordem otimizando os principais componentes do processador, tais como tensão de entrada &, frequência de clock, Tamanho de cache, hierarquia de memória e contagem de núcleo. O objetivo dos modelos analíticos é derivar projetos de desempenho de pico e descrever as restrições físicas do processador. Modelos parametrizados detalhados são construídos de acordo com os padrões ITRS*. Estes modelos ajudam a explorar o espaço de design dos multicores. Note que estes modelos não propõem o número absoluto de núcleos ou tamanho de cache necessários para alcançar o pico de desempenho nos processadores. Em vez disso, eles são modelos analíticos propostos para capturar os efeitos de primeira ordem da escala de tecnologia para descobrir as tendências que levam ao silício escuro. O desempenho destes modelos é medido em termos de transferência agregada de servidores, e o modelo é examinado autonomamente em computação heterogênea.

a fim de construir tais modelos, fizemos algumas escolhas de configuração de design para hardware, largura de banda, tecnologia, energia e modelos de área, como descrito na próxima seção em detalhes.

2.1 modelo de Hardware

CMPs são construídos sobre três tipos de núcleos, isto é, de uso geral (GPP), embedded (EMB), e especializado (SP). Os GPPs são núcleos multicamados em ordem de quatro vias e fornecem alta capacidade em um ambiente de servidor, alcançando 1.7 x mais velocidade sobre um núcleo de simples threaded . Os núcleos EMB representam um paradigma de design consciente do poder, e são semelhantes aos núcleos GPP no desempenho. Os núcleos especializados são CMPs com hardware especializado, por exemplo, GPU, processadores de sinal digital e matrizes de portas de campo programáveis. Apenas esses componentes de hardware serão powerup, que são mais adequados para a dada carga de trabalho a qualquer momento. Os núcleos SP superam os núcleos GPP 20x com menos 10x de potência.

2.2 modelo tecnológico

CMPs são modelados em 65nm, 45nm, 32nm e 20nm tecnologias de fabricação seguindo projeções ITRS. Transístores com uma tensão Vth de alta tensão são melhores para avaliar a redução da Corrente de vazamento. Portanto, transístores VTH elevados são usados para mitigar o efeito da parede de energia . CMPs com alto desempenho transistores para todo o chip, LOP (baixa energia) para o cache, e LOP transistores para todo o chip são usados para explorar as características e o comportamento do modelo.

2.3 Area Model

the model restricts the die area to 310mm2. Os componentes interconect e do sistema on-chip ocupam 28% da área, e o resto dos 72% é para núcleos e cache. Podemos estimar as áreas centrais através da ampliação dos projetos existentes para cada tipo de núcleo de acordo com os padrões ITRS. UltraSPARC T1 core é escalado para núcleos GPP e ARM11 para núcleos EMB e SP.

2.4 Performance Model

Amdahl’s Law is the basis of the performance model. Assume um paralelismo de aplicação de 99%. O desempenho de um único núcleo é calculado agregando UIPC (instruções de usuário comprometidas por ciclo). UIPCis computed in terms of memory access time given by the following formula:

Averagemoryaccesstime = HitTime + MissRate × MissPenalty

UIPC é proporcional ao rendimento global do sistema. Fórmulas detalhadas, derivações e cálculos do modelo de desempenho estão disponíveis em .

2.5 L2 cache miss rate and data-set evolution models

Estimating the cache miss rate for the given workplace is important as it plays a governing role in the performance. O cache L2 de tamanho entre 256KB e 64MB é ajustado em curva usando medições empíricas para estimar a taxa de erro do cache. X-shifted power law
y = α (x + β )^γ fornece o melhor ajuste para os nossos dados com apenas 1,3% média de taxa de erro. Fórmulas de escala de Miss-rate estão listadas com detalhes neste trabalho .

2.6 modelo de largura de banda Off-chip

requisitos de largura de banda de Chip são modelados pela estimativa da taxa de atividade off-chip, ou seja, frequência de clock e desempenho do núcleo. A largura de banda Off-chip é proporcional à taxa de erro L2, contagem do núcleo e atividade do núcleo. A largura de banda máxima disponível é dada pela soma do número de pads e o máximo de relógios off-chip. Em nosso modelo, nós tratamos a memória 3D empilhada como um grande cache L3 devido à sua alta capacidade e largura de banda. Cada camada de memória 3D empilhada é de 8 Gbits em tecnologia 45nm. O consumo de energia de cada camada é de 3,7 Watts no pior caso. Nós model 8 camadas com uma capacidade total de 8 GBytes e uma camada extra para a lógica de controle. A adição de 9 camadas eleva a temperatura do chip para 10°C. No entanto, nós contabilizamos a dissipação de energia para combater esses efeitos. Estimamos que empilhamento 3D irá melhorar o tempo de acesso à memória em 32.5% porque torna a comunicação entre os núcleos e a memória 3D muito eficiente.

2.7 Power Model

total chip power is calculated by adding the static and dynamic power of each component, such as core, cache, I/O, interconnect, etc. Usamos dados ITRS para gerenciar a potência máxima disponível para chips refrigerados a ar com dissipadores de calor. Nosso modelo terá limites de potência máxima como entrada e descartará todo o projeto CMPs que excede os limites de potência definidos. As tecnologias de resfriamento líquido podem aumentar a potência máxima, no entanto, ainda não somos bem sucedidos na aplicação de métodos de resfriamento térmico em núcleos. O poder dinâmico de núcleos N e cache L2 é calculado usando as fórmulas mencionadas no papel com detalhes.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Figura 3: Desempenho de propósito geral (GPP) chip de multiprocessadores

3 ANÁLISE

Após a concepção, precisamos demonstrar o uso dos nossos modelos analíticos. Vamos explorar os projetos de pico de desempenho de processadores multicores de uso geral e especializados nas duas subseções seguintes. Além disso, avaliaremos também as contagens fundamentais para estes desenhos e concluiremos por análise comparativa.

3.1 processadores multicores de finalidade geral

começamos por explicar a progressão do nosso algoritmo de design de pico de desempenho-exploração espacial pelos resultados mostrados na Figura 3. A figura 3a representa o desempenho de um CMPs de 20nm GPP executando Apache usando transistores de alto desempenho (HP) para ambos os núcleos e cache. O grafo representa o desempenho do chip agregado como uma função do tamanho do cache L2. Significa que uma fração da área de dados é dedicada ao cache L2 (representado em MB no eixo x).

a curva de área mostra o desempenho do projeto com potência ilimitada e largura de banda off-chip, mas tendo restringido a área de dados em chip. Maior o cache menos os núcleos. Mesmo que alguns números de núcleos se encaixem na área de dados restante, cada núcleo executa o melhor devido à alta taxa de sucesso do cache maior. O benefício de desempenho é alcançado aumentando o cache L2 até 64MB. Depois disso, é compensado pelo custo de reduzir ainda mais o número de núcleos.

a curva de potência mostra o desempenho do projeto rodando na frequência máxima com potência limitada devido à restrição de arrefecimento do ar, mas com largura de banda e área ilimitadas. A restrição de energia restringe o desempenho do chip agregado porque executar os núcleos na frequência máxima requer uma quantidade sem precedentes de energia que limita o projeto a poucos núcleos apenas.

a curva de largura de banda representa o desempenho do projeto rodando em uma potência ilimitada e área de saída com largura de banda limitada. Tal projeto reduz a pressão de largura de banda off-chip devido ao maior tamanho de cache disponível e melhora o desempenho. Área+curva de potência representa o desempenho do projeto limitado em potência e área, mas largura de banda off-chip ilimitada. Tal projeto otimiza em conjunto a frequência e a tensão dos núcleos selecionando o projeto de pico de desempenho para cada tamanho de cache L2.

curva de pico de desempenho representa o desenho multicêntrico que se adapta a todas as restrições físicas. O desempenho é limitado pela largura de banda off-chip no início, mas depois de 24 MB de potência torna-se o principal limitador de desempenho. O design de desempenho de pico é alcançado na intersecção de curvas de potência e largura de banda. Uma grande diferença entre o desempenho de pico e a curva de área indica que uma vasta área do Silício em GPP não pode ser usada para mais núcleos por causa de restrições de energia.

figura 3b representa o desempenho dos projetos que utilizam transístores de alto desempenho (HP) para núcleos e baixa potência operacional (LOP) para o cache. Da mesma forma, a figura 3c representa o desempenho dos projetos com baixa potência operacional tanto para os núcleos quanto para o cache. Os projetos que utilizam transístores de HP podem alimentar apenas 20% dos núcleos que se encaixam na área de 20 nm. Por outro lado, os projetos que utilizam transistores LOP para o cache (figura 3c) produzem maior desempenho do que os projetos que usam transistores HP porque permitem bigodes maiores que suportam aproximadamente o dobro do número de núcleos, ou seja, 35-40% de núcleos no nosso caso. Dispositivos LOP produzem maior eficiência de energia porque eles são adequados para implementar tanto os núcleos e o cache.

portanto, podemos concluir que o design de pico de desempenho oferecido por processadores multicores de propósito geral resulta em uma grande área de silício escuro quando núcleos e caches são construídos com transístores de HP. No entanto, fazer uso de transístores LOP reduz a área escura até certo ponto, como explicado anteriormente e mostrado na Figura 3.

análise das contagens de núcleo: para analisar o número utilizado de núcleos, a figura 4a traça o número teórico de núcleos que podem caber numa determinada área da tecnologia correspondente, juntamente com as contagens de núcleo dos projetos de desempenho de pico. Devido aos limites de energia do chip, projetos baseados em HP tornaram-se impossíveis após 2013. Embora os projetos baseados em LOP fornecessem um caminho para a frente, a grande lacuna mostrada entre o limite da área e os projetos LOP indica que uma fração crescente da área de dados permanecerá escura por causa dos núcleos subutilizados.

3.2 processadores multicores especializados

now we demonstrate the peak performance designs using GPP, embedded (EMB), and specialized (SP) cores using LOP transistors having die area of 20 nm.

uma aplicação extrema de núcleos SP é avaliada considerando um ambiente de computação especializado onde um chip multicore contém centenas de núcleos diversos de aplicação específica. Apenas os núcleos são ativados que são mais úteis para a aplicação em execução. O resto dos núcleos estão desligados. O design de núcleos SP oferece alto desempenho com menos mas mais potentes núcleos. Observa-se que os núcleos SP são altamente eficientes em termos de potência e superam significativamente os núcleos GPP e EMB.

Análise Das Contagens Principais: A figura 4b mostra a análise comparativa das contagens de núcleo para os projetos de pico de desempenho em todos os tipos de núcleo mencionados. Ele mostra que o pico de desempenho SP designs empregam apenas 16-32 núcleos e cache ocupa uma grande parte da área de chip de die. Baixa-core-contagem SP projetos de superar outros projetos com 99,9% de paralelismo. As características de alto desempenho dos núcleos SP aumentam o envelope de potência mais do que é possível com outros projetos de núcleo. SP multicores atingir 2x A 12x speedup sobre o EMB e GPP multicore designs e são, em última análise, limitados pela largura de banda off-chip limitada. Uma memória 3D empilhada é usada para mitigar o efeito de restrições de largura de banda além dos limites de potência. A utilização de memória empilhada em 3D empurra a restrição de largura de banda e leva a um design de alta performance com restrição de potência (figura 4c). A eliminação do gargalo de largura de banda off-chip leva-nos de volta ao regime de potência limitada com uma área de dados subutilizada (figura 4b). A redução da largura de banda off-chip combinando memória 3D com núcleos especializados melhora o aumento de Velocidade em 3x para o tamanho do die 20nm e reduz a pressão sobre o tamanho do cache on-chip. Por outro lado, multiprocessadores de chip GPP e EMP só podem atingir menos de 35 por cento de melhoria de desempenho.

Figura 4: Núcleo de Análise de Conta

4 ATUAL ESTADO-DA-ARTE

O fenômeno do escuro silício, iniciado em 2005. Foi o momento em que os designers de processadores começaram a aumentar a contagem de núcleo para explorar a escala de lei de Moore ao invés de melhorar um desempenho de um único núcleo. Como resultado, descobriu-se que a Lei de Moore e Dennard scaling se comportam reciprocamente na realidade. Dennard scaling afirma que a densidade de transistores por unidade de área permanece constante com uma diminuição em seu tamanho . Inicialmente, as tarefas dos processadores foram divididas em diferentes áreas para alcançar um processamento eficiente e minimizar o impacto do Silício escuro. Esta divisão levou aos conceitos de unidades de ponto flutuante e mais tarde foi percebido que a divisão e distribuição das tarefas do processador usando módulos especializados também poderia ajudar a aliviar o problema do Silício escuro. Estes módulos especializados resultaram em uma área de processamento menor com execução eficiente de tarefas que nos permitiu desligar um grupo específico de transistores antes de iniciar outro grupo. O uso de alguns transístores de forma eficiente em uma tarefa nos permite continuar a ter transístores de trabalho em outra parte do processador. Estes conceitos avançaram para o sistema em Chip (SoC) e sistema em chip (SiC) processadores. Transístores em processadores Intel também liga / desliga de acordo com a carga de trabalho. No entanto, o design multicore especializado discutido neste relatório requer pesquisas adicionais para realizar o seu impacto em outros processadores SoC e SiC multicore com diferentes requisitos para largura de banda e temperatura.

5 trabalho relacionado

nesta secção, discutiremos outras estratégias, técnicas ou tendências propostas na literatura sobre o fenómeno do Silício escuro.

Jorg Henkel et al. introduziu novas tendências no silício escuro em 2015. O artigo apresentado centra-se nos aspectos térmicos do Silício escuro. É provado por extensos experimentos que o orçamento total de energia de chip não é a única razão por trás do Silício escuro, densidade de energia e efeitos térmicos relacionados também estão desempenhando um papel importante neste fenômeno. Portanto, eles propõem uma energia térmica segura (TSP) para um orçamento de energia mais eficiente. Uma nova tendência proposta afirma que a consideração da restrição de temperatura de pico proporciona uma redução na área escura do Silício. Além disso, também é proposto que o uso da escala de frequência de tensão dinâmica aumenta o desempenho global do sistema e diminui o silício escuro .

Anil et al. apresentou um sistema de gestão de recursos em tempo de execução em 2018 conhecido como adBoost. Ele emprega Dark silicon aware run-time application mapping strategy para alcançar thermal-aware performance boosting em processadores multicores. Ele se beneficia do padrão (PAT) de silício escuro. PAT é uma estratégia de mapeamento que distribui uniformemente a temperatura através do chip para melhorar o orçamento de energia utilizável. Ele oferece temperaturas mais baixas, maior orçamento de energia, e sustenta os períodos mais longos de aumento. Os experimentos mostram que ele produz 37% de melhor rendimento em comparação com outros impulsionadores de desempenho de última geração .

Lei Yang et al. propôs um modelo térmico em 2017 para resolver o problema fundamental de determinar a capacidade do sistema multiprocessador on-chip para executar o trabalho desejado, mantendo sua confiabilidade e mantendo cada núcleo dentro de uma faixa de temperatura segura. O modelo térmico proposto é usado para previsão de temperatura de chip rápido. Ele encontra a melhor tarefa-para-núcleo atribuição, prevendo a temperatura mínima de pico do chip. Se a temperatura mínima de pico do chip de alguma forma exceder o limite de temperatura segura, um algoritmo heurístico recém-proposto conhecido como “temperature constrainted task selection” (TCTS) reage para otimizar o desempenho do sistema dentro de um limite de temperatura segura do chip. Imposição das TCTS algoritmo é formalmente provado, e extensas avaliações de desempenho mostram que este modelo reduz o chip pico de temperatura de 10°C, em comparação com outras técnicas tradicionais. O desempenho global do sistema é melhorado em 19,8% sob limitação de temperatura segura. Finalmente, um estudo de caso real é realizado para provar a viabilidade desta técnica sistemática .

6 CONCLUSION

Continuous scaling of multicore processors is constrained by power, temperature, and bandwidth constraints. Estas restrições limitam o design multicore convencional a uma escala além de algumas dezenas a poucas centenas de núcleos apenas. Como resultado, uma grande porção de um processador sacrifica chip para permitir que o resto do chip continue trabalhando. Nós discutimos uma técnica para reaproveitar a área de dados não utilizada (silício escuro) através da construção de multicores especializados. Os centros especializados (SP) implementam um grande número de núcleos específicos de carga de trabalho e fornecem energia apenas aos núcleos específicos que têm uma estreita correspondência com os requisitos da carga de trabalho de execução. Um modelo detalhado de primeira ordem é proposto para analisar o design de SP multicores, considerando todas as restrições físicas. Extensas experiências de carga de trabalho em comparação com outros multicores de propósito geral são realizadas para analisar o desempenho do modelo. SP multicores superam outros projetos por 2x A 12x. Embora os SP multicores sejam um design atraente, as cargas de trabalho modernas devem ser caracterizadas para identificar os segmentos computacionais que servem como candidatos ao off-loading para núcleos especializados. Além disso, a infraestrutura de software e o ambiente de tempo de execução também são necessários para facilitar a migração de código na granularidade apropriada.

1965. A lei de Moore. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Scaling. https://en.wikipedia.org/wiki/Dennard_scaling

Pradip Bose. 2011. Parede De Energia. Springer US, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavelas. 2009. Multiprocessadores de chips para as cargas de trabalho do servidor. supervisores-Babak Falsafi e Anastasia Ailamaki (2009).Nikolaos Hardavelas, Michael Ferdman, Anastasia Ailamaki e Babak Falsafi. 2010. Escala de poder: o obstáculo final para chips 1K-core. (2010).Nikos Hardavelas, Michael Ferdman, Babak Falsafi e Anastasia Ailamaki. 2011. Em direcção ao silício escuro nos servidores. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki, e Babak Falsafi. 2007. Servidores de banco de dados em multiprocessadores de chips: limitações e oportunidades.. In CIDR, Vol. 7. Citeseer, 79-87.Jörg Henkel, Heba Khdr, Santiago Pagani e Muhammad Shafique. 2015. Novas tendências no silício escuro. Em 2015, a 52ª conferência ACM / EDAC / IEEE Design Automation Conference (CAD). IEEE, 1-6.

Mark D Hill and Michael R Marty. 2008. A Lei de Amdahl na era multicore. Computer 41, 7 (2008), 33-38.Mengquan Li, Weichen Liu, Lei Yang, Peng Chen e Chao Chen. 2018. Otimização da temperatura do Chip para sistemas de muitos núcleos de silício escuro. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 37, 5 (2018), 941-953.

Amir m Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. Adboost: desempenho consciente Termal aumentando através de padrões de silício escuro. IEEE Trans. Computa. 67, 8 (2018), 1062–1077.

Deixe uma resposta

O seu endereço de email não será publicado.

lg