写真:Harrison Broadbent on Unsplash

このレポートは、hardavellasらが2011年に発表した研究論文に基づいて、ダークシリコンの現象を引き起こす技術動向、サーバーへの影響、およびそれらを抑制 サーバーチップは、一定の制限を超えて拡張されません。 その結果、チップの増加部分は、我々は電力を供給する余裕がないことを、ダークシリコンとして知られている電源オフのままです。 特殊なマルチコアプロセッサは、サーバーのパフォーマンスと電力効率を向上させるために、多様なアプリケーション固有の異種コアを提供することによ

データは指数関数的に増加しています。 それは計算を処理し、実行するために計算エネルギーを必要とします。 データはムーアの法則よりも速く成長していることが観察されています。 ムーアの法則は、コンピュータの性能、CPUクロック速度、およびチップあたりのトランジスタの数は、隔年で倍増すると述べています。 この課題に対処するためには、これまでにない量の計算エネルギーが必要です。 1000m2のデータセンターが1.5MWであるという例でエネルギー需要のアイデアを得ることで十分です。 今日では、このデータを処理するためにマルチコアプロセッサが使用されています。 システムの性能は、利用可能なコアの数に正比例すると考えられています。 しかし、パフォーマンスはムーアの法則に従わないため、この信念は真実ではありません。 実際には、図1に示すように、帯域幅、電力、熱の制限などの物理的な制約があるため、性能は予想される結果よりもはるかに遅くなります。

図1:物理的制約

オフチップの帯域幅はゆっくりと増加することが観察されます。 その結果、コアにデータを十分に高速に供給することはできません。 トランジスタ数の増加は、十分に速く電圧を低下させない。 トランジスタの10倍の増加は、最後の十年でわずか30%の電圧降下をもたらしました。 同様に、冷却はまったくスケールされないため、電力は冷却限界によって制約されます。 マルチコア革命に燃料を供給するために、チップ上のトランジスタの数は指数関数的に増加しています。 しかし、すべてのトランジスタを同時に動作させるには、チップあたりの指数関数的に多くの電力が必要ですが、これは前述の物理的制約のために その結果、チップの指数関数的に大きな領域は、ダークシリコンとして知られている未利用のままになります。

図2のトレンドラインに示すように、暗いシリコン面積は指数関数的に増加しています。 このグラフでは、異なるワークロードのピークパフォーマンスのダイサイズが時間とともにプロットされます。 簡単に言えば、大規模なチップ上で利用可能なトランジスタの一部のみを使用することができ、残りのトランジスタは電源オフのままです。

図2:ダイサイズの傾向

ここで、チップのこの大きな未利用の暗い領域を無駄にする必要があるのかという疑問が生じます。 Hardavellas et al. 特殊な異種アプリケーション固有のコアの海を構築することにより、チップマルチプロセッサ(CMPs)用のダークシリコンを再利用しました。 これらの特殊なコアは、特定のワークロード用に明示的に設計された少数の選択されたコアのみを動的にパワーアップします。 これらのアプリケーションコアのほとんどは、使用していないときに無効/暗いままです。

特殊コアの利点:特殊コアはオーバーヘッドを排除するため、従来のコアよりも優れています。 たとえば、ローカルメモリ、L2キャッシュ、およびメインメモリからデータにアクセスするには、それぞれ50pJ、256-1000pJ、およびほぼ16000pJのエネルギーが必要です。 これらのオーバーヘッドは汎用コンピューティングに属しますが、慎重に設計された特殊なコアは、これらのオーバーヘッドのほとん 特殊なコアは、物理的な制約の影響を軽減することにより、サーバーワークロードの集計パフォーマンスとエネルギー効率を向上させます。

1.1方法論

ダークシリコンの程度を評価するには、物理的制約の範囲内にとどまりながらピーク性能を達成できるCmpを構成するために、多数の設計パラ そこで、電源&しきい値電圧、クロック周波数、キャッシュサイズ、メモリ階層、コア数など、プロセッサの主成分を最適化することにより、一次解析モデルを開発します。 解析モデルの目的は、ピーク性能設計を導出し、プロセッサの物理的制約を記述することです。 詳細なパラメータ化されたモデルは、ITRS*規格に従って構築されます。 これらのモデルは、マルチコアの設計空間を探索するのに役立ちます。 これらのモデルは、プロセッサのピーク性能を達成するために必要なコアの絶対数やキャッシュサイズを提案していないことに注意してくださ 代わりに、ダークシリコンにつながる傾向を明らかにするために、技術スケーリングの一次効果をキャプチャするために提案された分析モデルです。 これらのモデルの性能を集約サーバスループットの観点から測定し,モデルを異種コンピューティングにおいて自律的に調べた。

このようなモデルを構築するために、次のセクションで詳細に説明するように、ハードウェア、帯域幅、技術、電力、面積モデルの設計構成をいくつか選択し

2.1ハードウェアモデル

Cmpは、汎用(GPP)、組み込み(EMB)、特殊(SP)の三つのタイプのコア上に構築されています。 Gppはスカラー順の四方マルチスレッドコアであり、シングルスレッドコアよりも1.7倍の高速化を達成することにより、サーバー環境で高いスループットを EMBコアはパワーに配慮した設計パラダイムを表し、性能面ではGPPコアに似ています。 特殊なコアは、GPU、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイなどの特殊なハードウェアを備えたCmpです。 これらのハードウェアコンポーネントのみがパワーアップされ、いつでも特定のワークロードに最適です。 SPの中心は10xより少ない力のGPPの中心20xに優っています。

2.2技術モデル

CMPSは、ITRS予測に従って65nm、45nm、32nm、および20nmの製造技術にわたってモデル化されています。 漏れ電流の低下を評価するには,しきい値電圧Vthが高いトランジスタが最適である。 したがって、高Vthトランジスタは、電力壁の影響を軽減するために使用されます。 チップ全体に高性能トランジスタを搭載したCMPs、キャッシュにLOP(low operating power)、チップ全体にLOPトランジスタを使用して、モデルの特性と動作を調べます。

2.3エリアモデル

モデルはダイ面積を310mm2に制限しています。 インターコネクトとシステムオンチップコンポーネントは面積の28%を占め、残りの72%はコアとキャッシュ用です。 ITRS規格に従ってコアの種類ごとに既存の設計をスケーリングすることにより、コア面積を推定することができます。 UltraSPARC T1コアはGPPコア用に、ARM11はEMBコアとSPコア用にスケーリングされます。

2.4パフォーマンスモデル

アムダールの法則はパフォーマンスモデルの基礎です。 99%のアプリケーション並列性を前提としています。 シングルコアのパフォーマンスは、UIPC(サイクルごとにコミットされたユーザー命令)を集約することによっ UIPCisは、次の式で与えられるメモリアクセス時間で計算されます:

AverageMemoryAccessTime=HitTime+MissRate×MissPenalty

UIPCは、システム全体のスループットに比例します。 パフォーマンスモデルの詳細な式、導出、および計算は、で利用可能です。

2.5L2キャッシュミス率とデータセット進化モデル

特定のワークロードのキャッシュミス率を推定することは、パフォーマンスに支配的な役割を果た 256KBから64MBの間のサイズのl2キャッシュは、キャッシュミス率を推定するために経験的測定値を使用して曲線近似されます。 Xシフトしたべき乗則
y=α(x+β)^γは、平均誤り率が1.3%しかないデータに最適な近似を提供します。 ミスレートスケーリング式は、この作業の詳細とともに記載されています。

2.6オフチップ帯域幅モデル

チップ帯域幅要件は、オフチップアクティビティレート、すなわちクロック周波数とコア性能の推定によってモデ オフチップ帯域幅は、L2ミスレート、コア数、およびコアアクティビティに比例します。 使用可能な最大帯域幅は、パッド数と最大オフチップクロックの合計によって与えられます。 このモデルでは、3Dスタックメモリを、その大容量と高帯域幅のために大きなL3キャッシュとして扱います。 3D積み重ねられた記憶の各層は45nm技術に8Gbitsです。 各層のエネルギー消費量は最悪の場合3.7ワットです。 私達は8つのGBytesの総容量および制御論理のための1つの余分層の8つの層を模倣します。 9層を追加するとチップ温度が10℃に上昇しますが、これらの影響に対抗するために消費電力を考慮しています。 我々は、3Dスタッキングは32によってメモリアクセス時間を改善することを推定します。5%それはコアと3Dメモリ間の通信を非常に効率的にするためです。

2.7パワーモデル

総チップ電力は、コア、キャッシュ、I/O、インターコネクトなどの各コンポーネントの静的電力と動的電力を加算して計算されます。 ヒートシンクを備えた空冷チップの最大利用可能電力を管理するために、ITRSデータを使用します。 このモデルでは、最大電力制限を入力として使用し、定義された電力制限を超えるすべてのCMPs設計を破棄します。 液体冷却技術は最大電力を増加させることができますが、コアに熱冷却法を適用することはまだ成功していません。 N個のコアとL2キャッシュの動的パワーは、論文に記載されている式を使用して詳細に計算されます。

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

図3:汎用(GPP)チップマルチプロセッサの性能

3 解析

設計後、解析モデルの使用を実証する必要があります。 次の二つのサブセクションでは、汎用および特殊なマルチコアプロセッサのピーク性能設計を検討します。 さらに、これらの設計のコアカウントを評価し、比較分析によって結論を下します。

3.1汎用マルチコアプロセッサ

まず、ピーク性能設計-宇宙探査アルゴリズムの進行を図3に示す結果によって説明します。 図3aは、コアとキャッシュの両方に高性能(HP)トランジスタを使用してApacheを実行している20nm GPP CMPsの性能を表しています。 グラフは、l2キャッシュサイズの関数としてのチップ性能の合計を表しています。 これは、ダイ領域の一部がL2キャッシュ専用であることを意味します(X軸上のMBで表されます)。

面積曲線は、無制限の電源とオフチップ帯域幅を持つが、オンチップダイ面積が制約された設計の性能を示しています。 キャッシュが大きくなると、コアが少なくなります。 残りのダイ領域にいくつかのコアが適合していても、大きなキャッシュのヒット率が高いため、各コアは最高のパフォーマンスを発揮します。 パフォーマンス上の利点は、L2キャッシュを64MBまで増やすことによって達成されます。 この後、コアの数をさらに減らすコストを上回ります。

電力曲線は、空冷の制約により電力が限られているが、オフチップの帯域幅と面積が無制限の最大周波数で動作する設計の性能を示しています。 最大周波数でコアを実行するには前例のない量のエネルギーが必要であり、設計は非常に少数のコアのみに制限されるため、電力制約はチップの性能

帯域幅曲線は、オフチップ帯域幅が制限されている無制限の電源およびダイ領域で実行される設計の性能を表します。 このような設計は、利用可能なキャッシュサイズが大きいため、オフチップ帯域幅の圧力を低減し、性能を向上させます。 面積+電力曲線は、電力と面積が制限されているが、無制限のオフチップ帯域幅の設計の性能を表します。 このような設計は、各L2キャッシュサイズのピーク性能設計を選択することによって、コアの周波数と電圧を共同で最適化します。

ピーク性能曲線は、すべての物理的制約に適応するマルチコア設計を表します。 パフォーマンスは、開始時にオフチップ帯域幅によって制限されますが、24MBの電源がメインパフォーマンスリミッタになります。 ピーク性能設計は、電力曲線と帯域幅曲線の交点で達成されます。 ピーク性能と面積曲線の間に大きなギャップがあることは、GPPのシリコンの広大な面積が電力制約のためにより多くのコアに使用できないことを示

図3bは、コアに高性能(HP)トランジスタを使用し、キャッシュに低動作電力(LOP)を使用する設計の性能を表しています。 同様に、図3cは、コアとキャッシュの両方の動作電力が低い設計のパフォーマンスを表しています。 HPトランジスタを使用した設計では、20nmのダイ領域に収まるコアの20%のみがパワーアップできます。 一方、キャッシュにLOPトランジスタを使用した設計(図3c)は、HPトランジスタを使用した設計よりも高い性能を発揮します。 LOPデバイスは、コアとキャッシュの両方を実装するのに適しているため、電力効率が高くなります。

したがって、汎用マルチコアプロセッサによって提供されるピーク性能設計は、コアとキャッシュをHPトランジスタで構築すると、ダークシリコンの大面積をもたらすと結論づけることができる。 しかし、LOPトランジスタを使用すると、前述した図3に示すように、暗い領域がある程度減少します。

コア数分析:使用されるコア数を分析するために、図4aは、対応する技術の指定されたダイ領域に適合できるコアの理論上の数と、ピーク性能設計のコ チップの電力制限のため、HPベースの設計は2013年以降不可能になりました。 LOPベースの設計は前進の道を提供しましたが、ダイ面積の限界とLOP設計の間に示されている高いギャップは、コアが使用されていないため、ダイ面積の割合が増加することを示しています。

3.2特殊マルチコアプロセッサ

ここでは、20nmのダイ面積を持つLOPトランジスタを使用したGPP、embedded(EMB)、specialized(SP)コアを使用したピーク性能設計を実証します。

SPコアの極端なアプリケーションは、マルチコアチップに何百もの多様なアプリケーション固有のコアが含まれている特殊なコンピューティング環境 実行中のアプリケーションに最も有用なコアのみがアクティブ化されます。 オンチップコアの残りの部分は電源オフのままです。 SPの中心の設計は少数より強力な中心との高性能を提供します。 S pコアは非常に電力効率が高く,GPPおよびEMBコアよりも有意に優れていることが観察された。

コア数分析: 図4bは、上記のコアタイプ全体でピーク性能設計のコア数の比較分析を示しています。 これは、ピーク性能SP設計が唯一の16-32コアを採用し、キャッシュがダイチップ領域の大部分を占めることを示しています。 低コア数のSP設計は、99.9%の並列性を持つ他の設計よりも優れています。 SPの中心の高性能特徴は他の中心の設計と可能であるより更に力の封筒を後押しする。 SPマルチコアは、EMBおよびGPPマルチコア設計に対して2倍から12倍の高速化を達成し、最終的には限られたオフチップ帯域幅によって制約されます。 電力制限を超える帯域幅の制約の影響を軽減するために、3Dスタックメモリを使用します。 3D積層メモリを使用することで帯域幅の制約が緩和され、高性能な電力制約設計が可能になります(図4c)。 オフチップの帯域幅のボトルネックを排除すると、ダイ面積が十分に利用されていない電力制限領域に戻ります(図4b)。 専用のコアと3Dメモリを組み合わせることにより、オフチップ帯域幅の削減は、3倍の20nmダイサイズの高速化を改善し、オンチップキャッシュサ 一方、GPPおよびEMPチップマルチプロセッサは、性能向上の35%未満しか達成できません。

図4:コア数分析

4 現在の最先端

ダークシリコンの現象は2005年に始まりました。 プロセッサ設計者は、シングルコア性能を向上させるのではなく、ムーアの法則スケーリングを利用するためにコア数を増やし始めた時でした。 その結果,Mooreの法則とDennardスケーリングが現実には逆に振る舞うことが分かった。 Dennard scalingは、単位面積あたりのトランジスタの密度は、そのサイズの減少とともに一定のままであると述べています。 当初、プロセッサのタスクは、効率的な処理を達成し、ダークシリコンの影響を最小限に抑えるために、異なる領域に分割されました。 この分割は浮動小数点ユニットの概念につながり、後に特殊なモジュールを使用してプロセッサのタスクを分割して配布することもダークシリコンの問題を軽減するのに役立つことが実現された。 これらの特殊なモジュールは、別のグループを開始する前に、トランジスタの特定のグループをオフにすることができ、効率的なタスク実行と小さなプ あるタスクで効率的な方法でいくつかのトランジスタを使用することで、プロセッサの別の部分にトランジスタを使用し続けることができます。 これらの概念は、System on Chip(SoC)およびSystem in Chip(SiC)プロセッサに進化しました。 インテルプロセッサのトランジスタも、作業負荷に応じてオン/オフになります。 しかし、このレポートで説明した特殊なマルチコア設計は、帯域幅と温度の要件が異なる他のSoCおよびSiCマルチコアプロセッサへの影響を実現するために、さらなる研究を必要としています。

5関連作業

このセクションでは、ダークシリコンの現象に関する文献で提案されている他の戦略、技術、または傾向について説明します。

Jorg Henkel et al. 2015年にダークシリコンの新しいトレンドを導入しました。 ダークシリコンの熱的側面に焦点を当てた。 これは、チップの総電力バジェットは、ダークシリコンの背後にある唯一の理由ではないことを広範な実験によって証明され、電力密度と関連する熱 従って彼らはより有効な力の予算のための熱安全な力(TSP)を提案する。 新しい提案の傾向は,ピーク温度制約を考慮するとシリコンの暗領域が減少することを示している。 さらに,動的電圧周波数スケーリングの使用はシステム全体の性能を増加させ,ダークシリコンを減少させることも提案した。

Anil et al. 2018年にadBoostとして知られるランタイムリソース管理システムを発表しました。 ダークシリコン対応のランタイムアプリケーションマッピング戦略を採用し、マルチコアプロセッサで熱対応のパフォーマンスブーストを実現しています。 これは、ダークシリコンのパターニング(パット)の恩恵を受けています。 PATは、チップ全体に温度を均等に分散して使用可能な電力バジェットを強化するマッピング戦略です。 それは低温、より高い電力の予算を提供し、後押しの長期を支えます。 実験はそれが他の最新式の性能のブスターと比較して37パーセントのよりよい効率をもたらすことを示す。

オンチップマルチプロセッサシステムの信頼性を維持し、すべてのコアを安全な温度範囲内に保つことによって、所望のジョブを実行する能力を決定するという根本的な問題を解決するために、2017年に熱モデルを提案した。 提案した熱モデルを用いてチップ温度を迅速に予測した。 最小チップピーク温度を予測することにより、最適なタスクからコアへの割り当てを見つけます。 最小チップピーク温度が何らかの形で安全温度限界を超えた場合、温度制約タスク選択(TCTS)として知られる新しく提案されたヒューリスティックアルゴ TCTSアルゴリズムの最適性が正式に証明され、広範な性能評価は、このモデルが他の伝統的な技術と比較してチップピーク温度を10℃低下させることを示 全体的なシステム性能は安全な温度の限定の下の19.8%改善されます。 最後に,このシステム的手法の実現可能性を証明するための実際のケーススタディを行った。

6結論

マルチコアプロセッサの連続スケーリングは、電力、温度、および帯域幅の制約によって制約されます。 これらの制約により、従来のマルチコア設計は数十から数百のコアのみを超えてスケールすることが制限されます。 その結果、プロセッサチップの大部分は、チップの残りの部分が動作し続けることを可能にするために犠牲にします。 特殊なマルチコアを構築することにより,未使用のダイ領域(ダークシリコン)を再利用する技術について議論した。 特殊化された(SP)マルチコアは、多数のワークロード固有のコアを実装し、実行中のワークロードの要件と密接に一致する特定のコアのみをパワーアップします。 すべての物理的制約を考慮してSPマルチコアの設計を解析するための詳細な一次モデルを提案した。 モデルの性能を解析するために,他の汎用マルチコアと比較した広範なワークロード実験を行った。 SPのmulticoresは2xから12xによって他の設計に優っています。 SPマルチコアは魅力的な設計ですが、特殊なコアへのオフロードの候補となる計算セグメントを特定するために、最新のワークロードを特徴付ける必要が さらに,適切な粒度でコードの移行を容易にするためには,ソフトウェアインフラストラクチャとランタイム環境も必要である。

1965. ムーアの法則 https://en.wikipedia.org/wiki/Moore%27s_law

1974. デナード-スケーリング https://en.wikipedia.org/wiki/Dennard_scaling

2011. パワーウォール。 シュプリンガー米国、ボストン、マサチューセッツ州、1593-1608。 https://doi.org/10.1007/978-0-387-09766-4_499

2009. サーバーワークロード用のチップマルチプロセッサ。 監督者-Babak FalsafiとAnastasia Ailamaki(2009)。

ニコラオス-ハーダヴェラス、マイケル-フェルドマン、アナスタシア-アイラマキ、ババク-ファルサフィ。 2010. パワースケーリング:1kコアチップへの究極の障害。 (2010).

ニコス-ハーダヴェラス、マイケル-フェルドマン、ババク-ファルサフィ、アナスタシア-アイラマキ。 2011. サーバーのダークシリコンに向けて。 IEEE Micro31,4(2011),6-15.

ニコス-ハーダヴェラス、Ippokratis Pandis、ライアン-ジョンソン、ナジュ-マンチェリル、アナスタシア-アイラマキ、ババク-ファルサフィ。 2007. チップマルチプロセッサ上のデータベースサーバ:制限と機会。. CIDRでは、Vol. 7. 79-87

Jörg Henkel、Heba Khdr、Santiago Pagani、Muhammad Shafique。 2015. 暗いケイ素の新しい傾向。 2015年、第52回ACM/EDAC/IEEE Design Automation Conference(DAC)に参加。 1月6日にメジャー契約を結んだ。

マーク-D-ヒルとマイケル-R-マーティ。 2008. マルチコア時代のアムダールの法則。 コンピュータ41,7(2008),33-38.

李孟泉、劉ウェイチェン、楊令、陳鵬、趙陳。 2018. ダークシリコン多芯システムのチップ温度の最適化。 IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems37,5(2018),941-953.

Amir M Rahmani,Muhammad Shafique,Axel Jantsch,Pasi Liljeberg,et al. 2018. adBoost:ダークシリコンパターニングによる熱認識性能の向上。 IEEE Trans. Comput。 67, 8 (2018), 1062–1077.

コメントを残す

メールアドレスが公開されることはありません。

lg