zdjęcie autorstwa Harrisona Broadbenta na Unsplash

ten raport podsumowuje trendy technologiczne, które powodują zjawisko ciemnego krzemu, jego wpływ na serwery i wysiłek w celu ich ograniczenia w oparciu o artykuł badawczy opublikowany w 2011 roku przez Hardavellas et al. Żetony serwera nie skalują się poza określony limit. W rezultacie coraz większa część układu pozostaje wyłączona, znana jako ciemny krzem, na który nie możemy sobie pozwolić. Wyspecjalizowane procesory wielordzeniowe mogą wykorzystywać obfity, niewykorzystany i ograniczony mocą obszar matrycy, zapewniając różnorodne, specyficzne dla aplikacji heterogeniczne rdzenie w celu poprawy wydajności serwera i wydajności energetycznej.

dane rosną w tempie wykładniczym. Wymaga energii obliczeniowej do przetwarzania i wykonywania obliczeń. Zaobserwowano, że dane rosną szybciej niż Prawo Moore ’ a . Prawo Moore ’ a mówi, że wydajność komputera, szybkość zegara procesora i liczba tranzystorów na układ podwaja się co dwa lata. Bezprecedensowa ilość energii obliczeniowej jest wymagana, aby sprostać temu wyzwaniu. Wystarczy wyobrazić sobie zapotrzebowanie na energię na przykładzie, że centrum danych o powierzchni 1000 m2 wynosi 1,5 MW. Obecnie do przetwarzania tych danych wykorzystywane są procesory wielordzeniowe. Uważa się, że wydajność systemu jest wprost proporcjonalna do liczby dostępnych rdzeni. Jednak przekonanie to nie jest prawdziwe, ponieważ performance nie przestrzega prawa Moore ’ a. W rzeczywistości wydajność jest znacznie wolniejsza niż oczekiwane wyniki ze względu na pewne ograniczenia fizyczne, takie jak przepustowość, moc i limity termiczne, jak pokazano na rysunku 1.

Rysunek 1: ograniczenia fizyczne

zaobserwowano, że przepustowość poza układem rośnie powoli. W rezultacie rdzenie nie mogą być wystarczająco szybko zasilane danymi. Wzrost liczby tranzystorów nie zmniejsza napięcia wystarczająco szybko. 10-krotny wzrost tranzystorów spowodował jedynie 30% spadek napięcia w ostatniej dekadzie. Podobnie moc jest ograniczona przez limity chłodzenia, ponieważ chłodzenie nie skaluje się w ogóle. Aby napędzać rewolucję wielordzeniową, liczba tranzystorów na chipie rośnie wykładniczo. Jednak praca wszystkich tranzystorów jednocześnie wymaga wykładniczo większej mocy na układ scalony, co jest po prostu niemożliwe ze względu na fizyczne ograniczenia wyjaśnione wcześniej. W rezultacie, wykładniczo duży obszar Chipa pozostaje niewykorzystany, znany jako ciemny krzem.

ciemny obszar krzemu rośnie wykładniczo, jak pokazuje linia trendu na rysunku 2. Na tym wykresie wielkość matrycy szczytowej wydajności dla różnych obciążeń jest wykreślana z czasem. W prostych słowach możemy użyć tylko ułamka tranzystorów dostępnych na dużym układzie, a reszta tranzystorów pozostaje wyłączona.

Rysunek 2: Trend wielkości matrycy

teraz pojawia się pytanie, czy powinniśmy zmarnować ten duży, niewykorzystany ciemny obszar Chipa? Hardavellas et al. repurposed dark silicon for chip multiprocessors (CMPs) poprzez budowę morza wyspecjalizowanych heterogenicznych rdzeni specyficznych dla aplikacji. Te wyspecjalizowane rdzenie dynamicznie zasilają tylko kilka wybranych rdzeni zaprojektowanych specjalnie dla danego obciążenia. Większość z tych rdzeni aplikacji pozostaje wyłączona / ciemna, gdy nie jest używana.

zalety specjalistycznych rdzeni: specjalistyczne rdzenie są lepsze niż konwencjonalne rdzenie, ponieważ eliminują koszty ogólne. Na przykład, aby uzyskać dostęp do części danych z pamięci lokalnej, pamięci podręcznej L2 i pamięci głównej wymaga odpowiednio 50 pJ, 256-1000 pJ i prawie 16000 pJ energii. Te koszty ogólne należą do komputerów ogólnego przeznaczenia, podczas gdy starannie zaprojektowany specjalistyczny rdzeń może wyeliminować większość tych kosztów ogólnych. Wyspecjalizowane rdzenie poprawiają wydajność agregatów i efektywność energetyczną obciążeń serwerów poprzez łagodzenie skutków ograniczeń fizycznych.

1.1 Metodologia

aby ocenić stopień ciemnego krzemu, kluczowe jest wspólne zoptymalizowanie dużej liczby parametrów projektowych w celu skomponowania CMP, które są w stanie osiągnąć szczytową wydajność przy jednoczesnym zachowaniu fizycznych ograniczeń. Dlatego opracowujemy modele analityczne pierwszego rzędu, optymalizując główne składniki procesora, takie jak napięcie progowe zasilania &, częstotliwość zegara, rozmiar pamięci podręcznej, hierarchia pamięci i liczba rdzeni. Celem modeli analitycznych jest uzyskanie projektów szczytowej wydajności i opisanie fizycznych ograniczeń procesora. Szczegółowe sparametryzowane modele są konstruowane zgodnie ze standardami ITRS*. Modele te pomagają w odkrywaniu przestrzeni projektowej multicore. Należy zauważyć, że modele te nie proponują bezwzględnej liczby rdzeni lub rozmiaru pamięci podręcznej wymaganej do osiągnięcia szczytowej wydajności procesorów. Zamiast tego są to modele analityczne proponowane w celu uchwycenia efektów skalowania technologii pierwszego rzędu, aby odkryć trendy prowadzące do ciemnego krzemu. Wydajność tych modeli jest mierzona w kategoriach zagregowanej przepustowości serwera, a model jest badany autonomicznie w heterogenicznych obliczeniach.

aby skonstruować takie modele, dokonaliśmy wyboru konfiguracji sprzętu, przepustowości, technologii, mocy i modeli obszarowych, jak opisano szczegółowo w następnej sekcji.

Model sprzętowy 2.1

CMPs są zbudowane na trzech typach rdzeni, tj. GPP są skalarnymi czterokierunkowymi wielowątkowymi rdzeniami i zapewniają wysoką przepustowość w środowisku serwerowym, osiągając 1,7 x większą prędkość w porównaniu z rdzeniem jednowątkowym . Rdzenie EMB reprezentują paradygmat projektowania energooszczędnego i są podobne do rdzeni GPP pod względem wydajności. Specjalizowane rdzenie to CMP ze specjalistycznym sprzętem, np. GPU, cyfrowymi procesorami sygnałowymi i programowalnymi tablicami bramek. Tylko te komponenty sprzętowe będą zasilane, które najlepiej pasują do danego obciążenia w dowolnym momencie. Rdzenie SP przewyższają rdzenie GPP 20x przy 10x mniejszej mocy.

Model technologii 2.2

CMPs są modelowane w technologiach wytwarzania 65nm, 45nm, 32nm i 20nm zgodnie z projekcjami ITRS. Tranzystory o wysokim napięciu progowym Vth najlepiej oceniają obniżenie prądu upływu. W związku z tym wysokie Tranzystory Vth są stosowane w celu złagodzenia efektu ściany mocy . CMPs z wysokowydajnymi tranzystorami dla całego układu, lop (low operating power) dla pamięci podręcznej i tranzystory LOP dla całego układu są używane do badania charakterystyki i zachowania modelu.

Model 2.3 Area

model ogranicza obszar matrycy do 310 mm2. Interkonekty i Komponenty system-on-chip zajmują 28% powierzchni, a pozostałe 72% dotyczy rdzeni i pamięci podręcznej. Możemy oszacować obszary rdzenia, skalując istniejące projekty dla każdego typu rdzenia zgodnie ze standardami ITRS. Rdzeń UltraSPARC T1 jest skalowany dla rdzeni GPP i ARM11 dla rdzeni EMB I SP.

Model wydajności 2.4

prawo Amdahla jest podstawą modelu wydajności. Zakłada on 99% równoległość aplikacji. Wydajność pojedynczego rdzenia jest obliczana przez agregację UIPC (instrukcje użytkownika popełnione na cykl). UIPCis obliczane pod względem czasu dostępu do pamięci, według następującego wzoru:

AverageMemoryAccessTime = HitTime + MissRate × MissPenalty

UIPC jest proporcjonalny do ogólnej przepustowości systemu. Szczegółowe formuły, wyprowadzenia i obliczenia modelu wydajności są dostępne na stronie .

wskaźnik braku pamięci podręcznej 2,5 L2 i modele ewolucji zestawów danych

Szacowanie wskaźnika braku pamięci podręcznej dla danego obciążenia jest ważne, ponieważ odgrywa kluczową rolę w wydajności. Pamięć podręczna L2 o wielkości od 256KB do 64MB jest dopasowana do krzywej za pomocą pomiarów empirycznych w celu oszacowania szybkości zaniku pamięci podręcznej. X-przesunięte prawo mocy
y = α (x + β) ^ γ zapewnia najlepsze dopasowanie do naszych danych z zaledwie 1,3% średnim współczynnikiem błędu. Formuły skalowania Miss-rate są wymienione ze szczegółami w tej pracy .

2.6 model przepustowości poza układem

wymagania dotyczące przepustowości układu są modelowane przez oszacowanie szybkości aktywności poza układem, tj. częstotliwości zegara i wydajności rdzenia. Przepustowość poza układem jest proporcjonalna do szybkości miss L2,liczby rdzeni i aktywności rdzenia. Maksymalna dostępna przepustowość jest określona przez sumę liczby pól lutowniczych i maksymalnych zegarów off-chip. W naszym modelu traktujemy pamięć 3D jako dużą pamięć podręczną L3 ze względu na dużą pojemność i dużą przepustowość. Każda warstwa 3D skumulowanej pamięci to 8 Gbits w technologii 45nm. Zużycie energii każdej warstwy wynosi 3,7 wata w najgorszym przypadku. Modelujemy 8 warstw o łącznej pojemności 8 GB i jedną dodatkową warstwę dla logiki sterowania. Dodanie 9 warstw podnosi temperaturę Chipa do 10°C. niemniej jednak uwzględniamy rozpraszanie mocy, aby przeciwdziałać tym efektom. Szacujemy, że układanie w stosy 3D zwiększy czas dostępu do pamięci o 32.5%, ponieważ sprawia, że komunikacja między rdzeniami a pamięcią 3D jest bardzo wydajna.

Model mocy 2.7

Całkowita moc układu jest obliczana przez dodanie statycznej i dynamicznej mocy każdego komponentu, takiego jak rdzeń, pamięć podręczna, We/Wy, interkonekt itp. Używamy danych ITRS do zarządzania maksymalną dostępną mocą chipów chłodzonych powietrzem z radiatorami. Nasz model przyjmuje maksymalne limity mocy jako wejście i odrzuca wszystkie konstrukcje CMPs przekraczające określone limity mocy. Technologie chłodzenia cieczą mogą zwiększyć maksymalną moc, jednak nie udało nam się jeszcze zastosować metod chłodzenia termicznego w rdzeniach. Dynamiczna moc N rdzeni i pamięci podręcznej L2 jest obliczana przy użyciu wzorów wymienionych w artykule ze szczegółami.

*https://en.wikipedia.org/wiki/International_Technology_Roadmap_for_Semiconductors

Rysunek 3: Wydajność wieloprocesorów chipowych ogólnego przeznaczenia (GPP)

3 Analiza

po zaprojektowaniu musimy zademonstrować wykorzystanie naszych modeli analitycznych. W kolejnych dwóch podrozdziałach przyjrzymy się projektom szczytowej wydajności procesorów wielordzeniowych ogólnego przeznaczenia i wyspecjalizowanych. Ponadto będziemy również oceniać podstawowe liczby dla tych projektów i wnioskować na podstawie analizy porównawczej.

3.1 wielordzeniowe procesory ogólnego przeznaczenia

zaczynamy od wyjaśnienia postępów naszego algorytmu projektowania szczytowej wydajności-eksploracji kosmosu za pomocą wyników pokazanych na rysunku 3. Rysunek 3a przedstawia wydajność 20nm GPP CMPs uruchamianego Apache przy użyciu tranzystorów wysokiej wydajności (HP) zarówno dla rdzeni, jak i pamięci podręcznej. Wykres przedstawia zagregowaną wydajność układu jako funkcję rozmiaru pamięci podręcznej L2. Oznacza to, że ułamek obszaru matrycy jest dedykowany pamięci podręcznej L2 (reprezentowanej w MB na osi x).

krzywa powierzchni pokazuje wydajność projektu z nieograniczoną mocą i przepustowością poza układem, ale z ograniczonym obszarem matrycy na układzie. Większe cache mniej rdzeni. Mimo że kilka rdzeni mieści się na pozostałym obszarze matrycy, każdy rdzeń działa najlepiej ze względu na wysoki wskaźnik trafień większej pamięci podręcznej. KorzyĹ „Ä ‡ wydajnoĹ” ci jest osiÄ … gniÄ ™ ta przez zwiÄ ™ kszenie bufora L2 do 64MB. Po tym jest on przeważany przez koszt dalszego zmniejszania liczby rdzeni.

krzywa mocy pokazuje wydajność projektu działającego z maksymalną częstotliwością przy ograniczonej mocy z powodu ograniczenia chłodzenia powietrzem, ale o nieograniczonej przepustowości i powierzchni poza układem. Ograniczenie mocy ogranicza wydajność agregatu, ponieważ uruchamianie rdzeni z maksymalną częstotliwością wymaga bezprecedensowej ilości energii, która ogranicza projekt tylko do bardzo niewielu rdzeni.

krzywa przepustowości reprezentuje wydajność projektu działającego przy nieograniczonej mocy i obszarze matrycy o ograniczonej przepustowości poza układem. Taka konstrukcja zmniejsza presję przepustowości poza układem ze względu na większy Dostępny rozmiar pamięci podręcznej i poprawia wydajność. Krzywa Area+Power reprezentuje wydajność projektu o ograniczonej mocy i powierzchni, ale nieograniczonej przepustowości poza układem. Taka konstrukcja wspólnie optymalizuje częstotliwość i napięcie rdzeni, wybierając projekt szczytowej wydajności dla każdego rozmiaru pamięci podręcznej L2.

Krzywa szczytowej wydajności reprezentuje konstrukcję wielordzeniową, która dostosowuje się do wszystkich fizycznych ograniczeń. Wydajność jest ograniczona przepustowością off-chip na początku, ale po 24 MB moc staje się głównym ogranicznikiem wydajności. Szczytowa wydajność osiągana jest na przecięciu krzywych mocy i przepustowości. Duża różnica między szczytową wydajnością a krzywą powierzchni wskazuje, że ogromna powierzchnia krzemu w GPP nie może być wykorzystana dla większej liczby rdzeni z powodu ograniczeń mocy.

rysunek 3b przedstawia wydajność konstrukcji wykorzystujących Tranzystory wysokiej wydajności (HP) dla rdzeni i niską moc operacyjną (LOP) dla pamięci podręcznej. Podobnie, rysunek 3c przedstawia wydajność projektów o niskiej mocy operacyjnej zarówno dla rdzeni, jak i pamięci podręcznej. Konstrukcje wykorzystujące Tranzystory HP mogą zasilać tylko 20% rdzeni, które mieszczą się w obszarze matrycy 20 nm. Z drugiej strony, projekty wykorzystujące Tranzystory LOP dla pamięci podręcznej (rysunek 3c) dają wyższą wydajność niż projekty wykorzystujące Tranzystory HP, ponieważ umożliwiają większe pamięci podręczne, które obsługują około dwukrotnie więcej rdzeni, tj. 35-40% rdzeni w naszym przypadku. Urządzenia LOP dają wyższą sprawność energetyczną, ponieważ są odpowiednie do implementacji zarówno rdzeni, jak i pamięci podręcznej.

stąd możemy wnioskować, że Szczytowa wydajność oferowana przez wielordzeniowe procesory ogólnego przeznaczenia powoduje duży obszar ciemnego krzemu, gdy rdzenie i pamięci podręczne są zbudowane z tranzystorów HP. Jednak użycie tranzystorów LOP zmniejsza ciemny obszar do pewnego stopnia, jak wyjaśniono wcześniej i pokazano na fig. 3.

analiza liczby rdzeni: aby przeanalizować wykorzystaną liczbę rdzeni, fig. 4A przedstawia teoretyczną liczbę rdzeni, które mogą zmieścić się na określonym obszarze matrycy odpowiedniej technologii wraz z liczbą rdzeni szczytowych projektów wydajności. Ze względu na limity mocy chipów, konstrukcje oparte na HP stały się niemożliwe po 2013 roku. Chociaż projekty oparte na LOP zapewniły drogę naprzód, Wysoka Szczelina pokazana między granicą obszaru matrycy a projektami LOP wskazuje, że rosnąca część obszaru matrycy pozostanie ciemna z powodu niewykorzystanych rdzeni.

3.2 wyspecjalizowane procesory wielordzeniowe

teraz demonstrujemy projekty szczytowej wydajności przy użyciu rdzeni GPP, embedded (EMB) i specialized (SP) przy użyciu tranzystorów LOP o powierzchni matrycy 20 nm.

ekstremalne zastosowanie rdzeni SP jest oceniane przez rozważenie wyspecjalizowanego środowiska obliczeniowego, w którym układ wielordzeniowy zawiera setki różnych rdzeni specyficznych dla aplikacji. Aktywowane są tylko te rdzenie, które są najbardziej przydatne dla uruchomionej aplikacji. Reszta rdzeni pozostaje wyłączona. Konstrukcja rdzeni SP zapewnia wysoką wydajność przy mniejszej liczbie rdzeni, ale mocniejszych. Obserwuje się, że rdzenie SP są bardzo energooszczędne i znacznie przewyższają rdzenie GPP i EMB.

Analiza Liczby Rdzeni: Rysunek 4b przedstawia analizę porównawczą liczby rdzeni dla projektów osiągających szczytowe wyniki we wspomnianych typach rdzeni. Pokazuje to, że projekty SP o szczytowej wydajności zatrudniają tylko 16-32 rdzenie, a pamięć podręczna zajmuje dużą część obszaru układu matrycy. Projekty SP o niskiej liczbie rdzeni przewyższają inne projekty z równoległością 99,9%. Wysokowydajne właściwości rdzeni SP zwiększają pole zasilania bardziej niż jest to możliwe w przypadku innych rdzeni. Wielordzeniowe układy SP osiągają 2x do 12x przyspieszenia w stosunku do wielordzeniowych układów EMB i GPP i są ostatecznie ograniczone przez ograniczoną przepustowość poza układem. Pamięć 3D jest używana do łagodzenia skutków ograniczeń przepustowości przekraczających limity mocy. Zastosowanie 3D-skumulowanej pamięci popycha ograniczenie przepustowości i prowadzi do wysokowydajnej konstrukcji z ograniczeniem mocy (rysunek 4c). Eliminacja wąskiego gardła przepustowości poza układem przenosi nas z powrotem do systemu ograniczonego mocą, który ma niewykorzystany obszar matrycy (rysunek 4b). Zmniejszenie przepustowości off-chip poprzez połączenie pamięci 3D ze specjalistycznymi rdzeniami poprawia przyspieszenie o 3x dla rozmiaru matrycy 20 Nm i zmniejsza nacisk na rozmiar pamięci podręcznej na chipie. Z drugiej strony, wieloprocesory GPP i EMP mogą osiągnąć tylko mniej niż 35 procent poprawy wydajności.

Rysunek 4: analiza liczby rdzeni

4 obecny stan techniki

zjawisko ciemnego krzemu rozpoczęło się w 2005 roku. Był to czas, kiedy projektanci procesorów zaczęli zwiększać liczbę rdzeni, aby wykorzystać skalowanie prawa Moore ’ a zamiast poprawiać wydajność jednordzeniową. W rezultacie okazało się, że Prawo Moore ’ a i skalowanie Dennarda zachowują się odwrotnie w rzeczywistości. Dennard skaling stwierdza, że gęstość tranzystorów na jednostkę powierzchni pozostaje stała wraz ze zmniejszeniem jej rozmiaru . Początkowo zadania procesorów zostały podzielone na różne obszary, aby uzyskać wydajne przetwarzanie i zminimalizować wpływ ciemnego krzemu. Podział ten doprowadził do pojęć jednostek zmiennoprzecinkowych, a później zdano sobie sprawę, że podział i dystrybucja zadań procesora za pomocą wyspecjalizowanych modułów może również pomóc w rozwiązaniu problemu ciemnego krzemu. Te wyspecjalizowane Moduły zaowocowały mniejszym obszarem procesora z efektywnym wykonywaniem zadań, co pozwoliło na wyłączenie określonej grupy tranzystorów przed uruchomieniem kolejnej grupy. Wykorzystanie kilku tranzystorów w wydajny sposób w jednym zadaniu pozwala na utrzymanie działających tranzystorów w innej części procesora. Koncepcje te rozwinęły się w procesory System on Chip (SoC) i System in Chip (SiC). Tranzystory w procesorach Intela również włączają się / wyłączają w zależności od obciążenia pracą. Jednak specjalistyczna konstrukcja wielordzeniowa omówiona w tym raporcie wymaga dalszych badań, aby uświadomić sobie jej wpływ na inne wielordzeniowe procesory SoC i SiC o różnych wymaganiach dotyczących przepustowości i temperatury.

5 pokrewne prace

w tej sekcji omówimy inne strategie, techniki lub trendy proponowane w literaturze na temat zjawiska ciemnego krzemu.

Jorg Henkel et al. wprowadził nowe trendy w ciemnym krzemie w 2015 roku. Prezentowany artykuł koncentruje się na termicznych aspektach ciemnego krzemu. Rozległe eksperymenty dowodzą, że całkowity budżet mocy Chipa nie jest jedynym powodem, dla którego ciemny krzem, gęstość mocy i powiązane efekty termiczne również odgrywają ważną rolę w tym zjawisku. Dlatego proponują bezpieczną termicznie moc (TSP)dla bardziej efektywnego budżetu energii. Nowy proponowany trend stwierdza, że uwzględnienie ograniczenia temperatury szczytowej zapewnia zmniejszenie ciemnego obszaru krzemu. Ponadto proponuje się również zastosowanie dynamicznego skalowania częstotliwości napięć zwiększa ogólną wydajność systemu i zmniejsza ciemny krzem .

Anil i in. zaprezentował system zarządzania zasobami w czasie pracy w 2018 znany jako adBoost. Wykorzystuje strategię mapowania aplikacji dark silicon aware run-time, aby osiągnąć wyższą wydajność Thermal-aware w procesorach wielordzeniowych. Korzysta ze wzorowania (PAT) ciemnego krzemu. PAT to strategia mapowania, która równomiernie rozkłada temperaturę na chipie, aby zwiększyć użyteczny budżet mocy. Oferuje niższe temperatury, wyższy budżet mocy i podtrzymuje bardziej wydłużone okresy zwiększania mocy. Eksperymenty pokazują, że zapewnia o 37 procent lepszą przepustowość w porównaniu z innymi najnowocześniejszymi wzmacniaczami wydajności .

Lei Yang et al. zaproponował model termiczny w 2017 roku, aby rozwiązać podstawowy problem określenia zdolności wieloprocesorowego systemu na chipie do wykonywania żądanego zadania poprzez utrzymanie jego niezawodności i utrzymywanie każdego rdzenia w bezpiecznym zakresie temperatur. Proponowany model termiczny służy do szybkiego przewidywania temperatury wiórów. Znajduje optymalne zadanie od zadania do rdzenia, przewidując minimalną temperaturę szczytową Chipa. Jeśli minimalna temperatura szczytowa Chipa w jakiś sposób przekracza bezpieczną granicę temperatury, nowo zaproponowany algorytm heurystyczny znany jako wybór zadań ograniczonych temperaturą (tcts) reaguje na optymalizację wydajności systemu w granicach bezpiecznej temperatury Chipa. Optymalność algorytmu TCTS jest formalnie udowodniona, a rozległe oceny wydajności pokazują, że model ten obniża szczytową temperaturę Chipa o 10°C w porównaniu z innymi tradycyjnymi technikami. Ogólna wydajność systemu jest lepsza o 19,8% przy bezpiecznym ograniczeniu temperatury. Wreszcie, prawdziwe studium przypadku jest prowadzone w celu udowodnienia wykonalności tej systematycznej techniki .

6 wnioski

ciągłe skalowanie procesorów wielordzeniowych jest ograniczone przez moc, temperaturę i ograniczenia przepustowości. Ograniczenia te ograniczają konwencjonalną konstrukcję wielordzeniową do skalowania poza kilkadziesiąt do niskich setek rdzeni. W rezultacie duża część układu procesora poświęca się, aby reszta układu mogła pracować dalej. Omówiliśmy technikę zmiany przeznaczenia niewykorzystanego obszaru matrycy (ciemny krzem) poprzez konstruowanie wyspecjalizowanych multicore. Specialized (SP) multicores implementują dużą liczbę rdzeni specyficznych dla obciążenia i zasilają tylko te specyficzne rdzenie, które są blisko zgodne z wymaganiami wykonującego obciążenia. Proponowany jest szczegółowy model pierwszego rzędu do analizy konstrukcji wielokrążków SP poprzez uwzględnienie wszystkich ograniczeń fizycznych. Rozległe eksperymenty obciążenia w porównaniu z innymi wielordzeniami ogólnego przeznaczenia są wykonywane w celu analizy wydajności modelu. MULTIKORE SP przewyższają inne konstrukcje o 2x do 12x. Mimo że multikore SP są atrakcyjną konstrukcją, nowoczesne obciążenia muszą być scharakteryzowane, aby zidentyfikować segmenty obliczeniowe służące jako kandydaci do rozładowania do wyspecjalizowanych rdzeni. Ponadto Infrastruktura oprogramowania i Środowisko wykonawcze są również wymagane w celu ułatwienia migracji kodu w odpowiedniej szczegółowości.

1965. Prawo Moore ’ a. https://en.wikipedia.org/wiki/Moore%27s_law

1974. Dennard Skaling. https://en.wikipedia.org/wiki/Dennard_scaling

2011. Ściana Mocy. Springer US, Boston, MA, 1593-1608. https://doi.org/10.1007/978-0-387-09766-4_499

Nikolaos Hardavellas. 2009. Chipowe wieloprocesory dla obciążeń serwerowych. nadzorcy-Babak Falsafi i Anastasia Ailamaki (2009).

Nikolaos Hardavellas, Michael Ferdman, Anastasia Ailamaki i Babak Falsafi. 2010. Skalowanie mocy: ostateczna przeszkoda dla 1K-rdzeniowych układów. (2010).

Nikos Hardavellas, Michael Ferdman, Babak Falsafi i Anastasia Ailamaki. 2011. W kierunku ciemnego krzemu w serwerach. IEEE Micro 31, 4 (2011), 6-15.

Nikos Hardavellas, Ippokratis Pandis, Ryan Johnson, Naju Mancheril, Anastassia Ailamaki i Babak Falsafi. 2007. Serwery baz danych na Wieloprocesorach chipowych: ograniczenia i możliwości.. In CIDR, Vol. 7. Citeseer, 79-87.

Jörg Henkel, Heba Khdr, Santiago Pagani i Muhammad Shafique. 2015. Nowe trendy w ciemnym krzemie. W 2015 roku odbyła się 52.konferencja ACM/EDAC/IEEE Design Automation (DAC). IEEE, 1-6.

Mark D Hill i Michael R Marty. 2008. Prawo amdahla w erze multicore. Komputer 41, 7 (2008), 33-38.

Mengquan Li, Weichen Liu, Lei Yang, Peng Chen i Chao Chen. 2018. Optymalizacja temperatury wiórów dla systemów wielordzeniowych z ciemnego krzemu. IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems 37, 5 (2018), 941-953.

Amir m Rahmani, Muhammad Shafique, Axel Jantsch, Pasi Liljeberg, et al. 2018. adBoost: zwiększenie wydajności Thermal Aware dzięki ciemnemu silikonowi. IEEE Trans. Comput. 67, 8 (2018), 1062–1077.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.

lg