16. rujna ove godine, dakle prije otprilike mjesec i pol dana
prisustvovali smo workshopu kojeg je za novinare Intel organizirao
u zračnoj luci u Munchenu. Tamo smo saznali informacije i vidjeli u akciji
o njihovu novu mikroarhitekturu kodnog imena Nehalem. Pričali su nam o promjeni
filozofije u dizajnu, novom "power manangementu", novim
instrukcijama, povratku na Hyper Threading itd., tj. o stvarima koje su već
duže vremena poznate, neke od jesenskog IDF-a, a neke i od prošle
godine
. No, ono što je bilo najzanimljivije je da su nam nove desktop
i serverske procesore pokazali u akciji. Danas je konačno došlo vrijeme da
i Vama predstavimo dijelove te nove arhitekture – nove desktop procesore i
novi X58 čipset, te njihove performanse. Intel nam je na test poslao kit koji
se sastoji od jednog Core i7-965 Extreme Edition i jednog Core i7-920 procesora,
zatim Intelove DX58SO "Smackover" Extreme matične ploče, tri pločice
Quimondine DDR3 1067MHz CL7 radne memorije, Intelovog SSD X25-M 80GB diska,
Thermalrightovog Ultra-120 eXtreme RT hladnjaka i Intelovog DBA-A hladnjaka.
U zadnji tren je stigla i Gigabyteova GA-EX58-UD5P ploča koju nažalost nismo
stigli testirati, no zato ćemo Vam pokazati kako izgleda i koje su joj karakteristike.

 

Nehalem mikroarhitektura

Intel svoj model razvoja procesorske mikroarhitekture naziva
"Tick-Tock", u kojem se izmjenjuje predstavljanje nove mikroarhitekture
sa novim proizvodnim procesom. Prva Tock faza tj. nova mikroarhitektura su
bili Conroe (Merom) procesori napravljeni u 65nm procesu, nakon kojih je uslijedila
Tick faza tj. Penryn procesori napravljeni u 45nm procesu. Danas je red na
novoj Tock fazi, tj. novoj mikroarhitekturi proizvedenoj na postojećem 45nm
procesu. Sljedeći Tick će biti smanjivanje tog proizvodnog procesa u 32nm
iz čega će proizaći novi Westmere procesori, a potpuno nova mikroarhitektura,
tj. novi Tock će biti Sandy Bridge na 32nm. Danas ćemo se ipak zadržati na
Nehalemu.

Ronak Singhal, glavni arhitekt Nehalem mikroarhitekture, otvorio
je Munchenski workshop predstavljanjem arhitekturalnih novosti i novog power
managementa Nehalema. Saznali smo kako će prvi procesori kodnog imena
Bloomfield bazirani na Nehalem arhitekturi nositi marketinško ime Core i7,
te kako će ih za početak biti tri. Svi će imati četiri jezgre i podržavati
HyperThreading, što je bila jedna od značajki Pentium 4 procesora i njegove
NetBurst arhitekture. Bloomfieldi su napravljeni u Intelovom 45nm proizvodnom
procesu, imaju 731 milijun tranzistora, 8M trećestupanjske priručne memorije,
podržavaju SSE4.2 instrukcije i možda najbitnije od svega imaju integrirani
DDR3 memorijski kontroler (kao AMD-ovi procesori). O svemu tome detaljnije
pročitajte u daljenjem tekstu, a u opisu ćemo krenuti od početka.

U dizajniranju nove arhitekture, vodili su se mišlju kako bi
novi procesori trebali biti brzi kako u single-threaded tako i u multi-threaded
aplikacijama, a kada se od njih ne zahtijeva snaga i brzina morali su biti
štedljivi. Kao baza je naravno korištena poznata Core
arhitektura, koja je kako znamo donijela radikalne promjene u odnosu na NetBurst.
Na slici iznad vidimo kako izgleda i kako je podijeljen jedan Quad-Core Nehalem.
Intel ga dijeli na "un-core" i "core" dio. Pod "un-core"
spada L3 priručna memorija, I/O dijelovi, memorijski kontroler i dva QPI-a
(Quick Path Interconnect). U slučaju Bloomfielda QPI je samo jedan, dok serverski
čipovi imaju dva.

Trećina jedne jezgre otpada na L1 i L2 priručne memorije, trećina
pripada izvršnom "out of order" dijelu, a preostalu trećinu zauzima
dekoder, logika za predviđanje grananja, rukovanje memorijom i "paging".
U odnosu na Core arhitekturu, Nehalemov front-end donosi poboljšanja u Macrofusionu,
Loop Stream Detectoru (28 Micro-Opsa u odnosu na 18 kod Core-a, te
uklanjanje dekodera) i u logici za predviđanje grananja (uvedeni L2 Branch
Predictor i Advanced Renamed Return Stack Buffer (RSB)). Izvršni dio jezgre
koji izvodi upravljanje i izvršavanje opercija je i dalje sposoban izvršiti
4 instrukcije po taktu, ima 128-bita široki SSE te Super Shuffle. Nehalem
donosi povećani paralelizam ("out of order" struktura veća za 33%
u odnosu na Conroe), poboljšani memorijski podsistem (nova TLB hijerarhija),
brzi 16-bajtni "unaligned" pristup priručnoj memoriji te brža sinkronizacija
primitiva (LOCK prefix, XCHG) što rezultira većom skalabilnošću.

Intelova Hyper-Threading tehnologija, poznata i kao SMT (Simultaneous
Multi-Threading) se vratila, a oni se pak ponovno hvale svi njenim predostima.
HT je sada učinkovitiji jer iskorištava izvršni mehanizam širine 4 instrukcije
po taktu, kojeg konstantno puni sa višestrukim threadovima (dretvama), te
skriva latenciju jedne dretve. Najviše ističu kako je HT najbolja funkcija
po pitanju efikasnisti, jer ne zauzima puno mjesta na jezgri (minimalno povećanje
logike), a znatno poboljšava performanse (u ovisnosti o aplikaciji). SMT na
Nehalemu profitira dodatno zbog veće priručne memorije i povećane memorijske
propusnosti čitave arhitekture.

Ustroj priručne memorije je doživio znatne promjene, a vrlo
je sličan Phenomovom. Trostupanjski ustroj donosi 64KB L1 memorije (32KB instrukcijske
+ 32KB podatkovne), koja je usporena je u odnosu na arhitekturu Penryn procesora
(4 ciklusa vs. 3 ciklusa). L2 memorije je sada "samo" 256KB po jezgri.
Unificirana (instrukcijska i pdatkovna), 8-smjerna, te služi kao međuspremnik
L3 memoriji (brzina je 10 ciklusa). Treći stupanj priručne memorije je i najzanimljiviji
te ćemo se na njemu malo duže zadržati. Ukupno se 8MB L3 memorije se nalazi
na "un-core" dijelu procesora i ona je dijeljena između svih jezgri.
U slučaju prva tri Bloomfielda količina memorije je 8MB, a do povećanja će
doći kada se poveća i broj jezgri. L3 memorija je uključiva, što znači da
su i podaci iz L1 i L2 memorija u njoj (ukoliko podaci nisu u L3, CPU zna
da nisu ni u L1, ni u L2 ni u jezgrama). Smisao iza ovoga je smanjivanje "core
snoop" prometa što povećava performanse i smanjuje potrošnju energije.
Ovaj "on-die snoop filter" će jako dobro doći prilikom povećanja
broja jezgri.

Sljedeće velike novosti su odmak od klasične arhitekture FSB-a
na novu QPI (QuickPath Interconnect) i integracija memorijskog kontrolera
"on-die". Integrirani memorijski kontroler podržava DDR3 memoriju,
do tri kanala po socketu, RDIMM i UDIMM te RAS značajke. To znači
kako će te za potpuno iskorištenje velikog memorijskog bandwidtha
Nehalema morati koristiti tri DDR3 memorijske pločice niskih latencija, a
proizvođači su kao što već znamo počeli sa isporukom "triple-channel"
kitova. Nehalem inicijalno podržava 1066MHz DDR3 memoriju, no putem overclockinga
je moguće dobiti i više brzine. Ipak, postizanje viših brzina može ograničiti
maksimalni napon od 1.6V koji smijemo "dati" memoriji. Znamo da
današnji DDR3 kitovi za veće brzine zahtijevaju nerijetko i 2.0V, a s obzirom
da je memorijski kontroler sada u procesoru nije preporučljivo podizati napon
ovako visoko. Ubuduće će na tržište doći i procesori koji će imati samo dva
aktivna memorijska kontrolera. Tu dolazimo i do činjenice kako će programeri
sada morati brinuti i kako Intelovi sistemi sada imaju i Non-Uniform Memory
Access (NUMA), što postaje bitno kod multi-socket setupa.

QPI zamjenjuje dosadašnji FSB, a vrlo je sličan Hyper Transport-u,
te će serverski Nehalemi znatno profitirati zbog činjenice da je dosta softvera
već prilagođeno AMD-ovoj serverskoj arhitekturi i HT-u. High-end Nehalemi
će imati dva bi-direkcionalna QPI linka koji će u jednom smjeru raditi na
brzini od 6.4GT/s, što znači da će ukupni bandwidth biti 25.6GT/s. Mainstream
Nehalemi će imati samo jedan bi-direkcionalni QPI link.

Intel je sa novom arhitekturom poboljšao i virtualizacijske
sposobnosti što će se posebno odraziti na serverske platforme. Sa Penrynom
je Intel SSE4 instrukcijski set proširio na SSE4.1, a sada su sa Nehalemom
dodali još instrukcija i nazvali ga SSE4.2 (znamo da naziv SSE5 koristi AMD).

Jednako zanimljiva novost je i integracija PCU (Power Control
Unit) kontrolera i uklanjanje domino logike koja je korištena do sada. Na
PCU je potrošeno oko 1 milijun tranzistora (toliko je imao Intel 486 procesor).
PCU ima svoj firmware koji se u realnom vremenu brine o temperaturama,
struji, snazi i zahtjevima operativnog sistema. Kao što je vidljivo sa slike,
svakoj jezgri je dodijeljen jedan PLL, te stoga svaka može raditi na neovisnom
taktu (kao i kod Phenoma) i naponu. Nehalemove jezgre mogu individualno biti
kompletno ili skoro ugašene kada su u dubokim sleep stanjima, dok sa trenutnim
procesorima to nije moguće. Drugim riječima, Nehalemova integrirana strujna
vrata dozvoljavaju jednoj ili više jezgri da u operativnom stanju rade na
nominalnoj voltaži, dok je preostalim neaktivnim jezgrama u potpunosti moguće
prekinuti dovod struje. Duboko C6 stanje je dakle sada omogućeno za svaku
jezgru, a kao dodatak tome, i "un-core" logiku je moguće poslati
u C6, te time još više sniziti potrošnju. Izlazak iz ovako dubokih stanja
traje dugo, i tu PCU stupa na scenu tako što prati situaciju i po potrebi
ne dozvoljava odlazak u duboka C6 stanja. PCU dakle prati i zahtjeve OS-a,
te može donijeti inteligentne odluke u koje stanje poslati jezgre, bez obzira
što mu OS govori. Još jedna prednost ovakvog on-die power
managementa je da se promjene napona ostvaruju puno brže, što dovodi
do efikasnijeg iskorištavanja energije.

Posljednja novost vezana uz Nehalem mikroarhitekturu je Turbo
Mode. Premda je to predstavljeno još sa mobilnim Penryn procesorima, na Nehalemima
je sve naravno unaprijeđeno. Turbo Mode je sastavni dio Intelove Speed Step
tehnologije i operativni sistem ju tretira kao još jedno P-stanje. Ukoliko
se pokaže potreba za višim performansama Turbo Mode se uključuje i povišava
frekvenciju jednoj ili dvjema jezgrama iznad nominalnih vrijednosti (mijenja
množitelj), dok ostale dvije zadržavaju istu radnu frekvenciju ili mogu postati
neaktivne. Ovo naravno ovisi o aplikaciji i koliko threadova koristi,
no sve mora ostati unutar TDP-a. Ukoliko on naraste iznad 130W jezgrama se
automatski snižava frekvencija. Kako to funkcionira u praksi pokazati ćemo
Vam kasnije u tekstu. Sada krenimo na opis Bloomfield procesora koji su nam
pristigli na test.