korszakváltás a processzorok fejlődésében
DESCRIPTION
Korszakváltás a processzorok fejlődésében. Sima Dezső 20 14 őszi félév (verzió 3.5). Áttekintés. 1 Processzorok teljesítménye. 2 A processzorok hatékonysága. 3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok. 4 Az órafrekvencia erőteljes növelése. - PowerPoint PPT PresentationTRANSCRIPT
Korszakváltása processzorok fejlődésében
Sima Dezső
2014 őszi félév(verzió 3.5)
2 A processzorok hatékonysága•
5 A második hatékonysági korlát•
9 Paradigmaváltás•
7 Párhuzamos buszok frekvenciakorlátja•
Áttekintés
6 A disszipációs korlát•
1 Processzorok teljesítménye•
3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok
•
8 EPIC architektúrák/processzorok•
4 Az órafrekvencia erőteljes növelése•
Abszolút teljesítmény Relatív teljesítmény
Eredményesen végrehajtott utasítások száma/sec
effcai IPCfP
Eredményesen végrehajtott műveletek száma/sec (SIMD)
OPIIPCfP effcao
Egy benchmark programcsomag valamely referenciarendszeren és a vizsgált rendszeren mért futási időinek összevetése az alábbi értelmezéssel (mértani közép):
Pl: SPECint92, SPECint_base2000
fc: ÓrafrekvenciaIPC: Utasítások száma/ciklus
nr tt
ttP
nv
nref
v1
ref1
(Pa alkalmazásfüggő, max. teljesítmény jellemzésére)
OPI: Műveletek száma/utasítás
1.1. Bevezetés (1)
Pl:MIPS, GIPS, MFLOPS, GFLOPS, TFLOPS
Számítási teljesítmény megadása
Egy adott alkalmazási területen jellemzi a teljesítményt
Példa SPECint eredményekre:
1.1. Bevezetés (2)
1.1. ábra: Programcsomag egyes programjainak futásidő arányai
Forrás: http://www.spec.org
Processzorok abszolút teljesítménye az utasításokra vonatkoztatva:
1.1. Bevezetés (3)
ahol:
fc : órafrekvenciaIPCeff : az óraciklusonként eredményesen végrehajtott utasítások száma
effc IPCfP
az eredményesen végrehajtott utasítások száma/sec
1.1. Bevezetés (4)
H = IPCeff
P = fc * H
Processzorok hatékonysága (H):
az óraciklusonként eredményesen végrehajtott utasítások száma
azaz
így
1.1. Bevezetés (5)
Grafikai teljesítménymegadása
pl. játékok futtatásakor
http://www.hardwarecanucks.com/forum/hardware-canucks-reviews/53054-intel-i7-
3770k-ivy-bridge-cpu-review-17.html
1.2. A processzor teljesítmények növekedése (1)
1.2. ábra: Az x86 alapú egymagos Intel processzorok FX-teljesítményének növekedése
SPECint92
5
10
50
Year86 8879 1980 81 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99
*
*
**
*
*
**
2
386/16
*
* *
**
* 8088/5
*0.5
100
8088/8
80286/10
80286/12
386/20 386/25386/33
500
*
**1000
20
200
1
0.2
*
***
**
*
486/25
486/33486/50 486-DX2/66
Pentium/66Pentium/100 Pentium/120
Pentium Pro/200
PII/450
PIII/600
486-DX4/100
Pentium/133 Pentium/166Pentium/200
PII/300PII/400 PIII/500
486-DX2/50*
2000 01 02 03
5000
2000*
*
*
*
*
** *
*
PIII/1000
P4/1500P4/1700
P4/2000 P4/2200P4/2400 P4/2800
P4/3060P4/3200
~ 100*/10 years
**
***
04 05
Northwood B
10000
Prescott (1M)Prescott (2M)
Leveling off
1.2. A processzor teljesítmények növekedése (2)
3.1.4. ábra: A fixpontos teljesítmények növekedése (általában - 2)
Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf
effc IPCfP
2.1. Bevezetés
?év10/100~
2. A processzorok hatékonysága
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02
0.05
0.1
0.02
0.5
1
0.2
0.01 ~~
*
**
**
* **
* * *
Pentium
486DX
386DX
286
Pentium IIPentium Pro
**
Pentium III~10*/10 years
Leveling off
2. generationsuperscalars
2.1. ábra: Intel processzorok hatékonysága
2.2. A processzorok hatékonyságának növekedése (1)
2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában)Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”,
Microprocessor Forum, October 14, 1997.
2.2. A processzorok hatékonyságának növekedése (2)
2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig)
?
A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.
effca IPCfP
év10/100~ év10/10~ év10/10~
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05
Leveling off
~ 10x/ 10 years
2. gen. szuperscalars
0.05
0.1
0.02
0.5
1
0.2
0.01 ~~
2.4. A hatékonyság növekedése és annak korlátja
2.4. ábra: Processzorok hatékonyságának növekedése a 2. gen. szuperskalárokig
2.5. A hatékonyság növelésének főbb forrásai (1)
Szóhossz növelése
Feldolgozási szélesség növelése
•
•
Általános célú feldolgozást tekintve
Szóhossz növelése
8 bit (8008) 16 bit (286) 32 bit (386DX) 64 bit adatszélesség (Pentium) 64 bit (Pentium 4 EMT)
•
2.5. A hatékonyság növelésének főbb forrásai (2)
Időbeli párhuzamosság bevezetése, növelése
Kibocsátási párhuzamosság bevezetése, növelése
1. és 2. generációs futószalag processzorok (386DX, 486DX)
1. és 2. generációs szuperskalárok (Pentium, Pentium Pro)
•
•
Feldolgozási szélesség növelése•
1
1. Gen. 2. Gen.
2 4
2.5. A hatékonyság növelésének főbb forrásai (3)
superscalar1. Gen. 2. Gen.
1 2 4
pipeline
2.5. A hatékonyság növelésének főbb forrásai (4)
A feldolgozási szélesség növelése (összefoglalás)
fcSPECint_base2000/
Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05
Leveling off
~ 10x/ 10 years
2. gen. szuperscalars
0.05
0.1
0.02
0.5
1
0.2
0.01 ~~
2.5. ábra: Processzorok hatékonyságának növekedése a 2. gen szuperskalárokig
Futószalag
1. gen.szuperskalár
2. gen.szuperskalár
~10x/10 év
Stagnálás
2.5. A hatékonyság növelésének főbb forrásai (5)
2.5. A hatékonyság növelésének első korlátja (1)
Feldolgozási szélesség
4 RISC utasítás/ciklus~3 CISC utasítás/ciklus
2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban
2. generációsszuperskalárok
(széles szuperskalárok)
Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990
Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően
a hatékonyság növelésének lehetőségea feldolgozási szélesség nővelésével kimerült
Általános célú alkalmazásokban:
2.5. A hatékonyság növelésének korlátja (2)
2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét
EPIC architektúrák kifejlesztése
Az órafrekvencia erőteljes növelése
effca IPCfP
A fejlődés fővonala
(4. – 7. pontok)
3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése
(8. pont)
A gyártási technológia vonalvastagságának csökkentése
A futószalag fokozatok logikai hosszának csökkentése
4.1. Az órafrekvencia növelésének forrásai (1)Az órafrekvencia növelése
4. Az órafrekvencia erőteljes növelése
4.1. ábra: Az Intel gyártási technológiák fejlődése
Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, 2006.
4.1. Az órafrekvencia növelésének forrásai (2)
4.1. Az órafrekvencia növelésének forrásai (3/1)
Egy futószalag fokozat logikai hossza (n x FO4)
A “leghosszabb” futószalag fokozat logikai hossza határozza meg a max. órafrekvenciát (a jelnek át kell érnie!).
Órajel
Órajeln x FO4Órajel
FO4: Fan-out of Four
A futószalag logikai hosszának csőkkentése a futószalag fokozatok számának növelésével:
F D E W
W1 W2F1 F2 D1 D2 E1 E2
4.1. Az órafrekvencia növelésének forrásai (3/2)
4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4)
4.1. Az órafrekvencia növelésének forrásai (4)
Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf
20
30
Year*
10
40
1990 2000
*
* *
*
Pentium(5)
2005
No of pipeline stages
Pentium Pro(~12)
Pentium 4(~20)
Athlon-64(12)
P4 Prescott(~30)
(14)Conroe
*Athlon(6)K6
(6)*
1995
*
Core Duo
4.2 ábra: A futószalag fokozatok száma Intel és AMD processzorokban
4.1. Az órafrekvencia növelésének forrásai (5)
4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése
4.2. Az órafrekvenciák növekedési üteme (1)
5
10
50
Year
*
** *
2
8088
*100
386
Pentium
Year of first volume shipment
cf
500
1000
20
200
*486-DX2
79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978
*
*
**
*
*486
*
** **
** *
**
Pentium II***Pentium III
*
286
*
Pentium Pro
1
486-DX4
2000 01 02 03
2000**
***
***
**
5000
Pentium 4
~10*/10years
~100*/10years
04 05
* * *
Leveling off(MHz)
4.2. Az órafrekvenciák növekedési üteme (2)
4.5. ábra: Az órafrekvenciák növekedési üteme (általában)
Fejlődési korlátok megjelenése
RISC processzorok kiszorulása
4.3. Az órafrekvencia erőteljes növelésének konzekvenciái
4.3.1. Áttekintés
(4.3.2)
(4.3.3)
•
•
4.3.2. RISC processzorok kiszorulása (1)
4.6. ábra: RISC processzorok kiszorulása
1995-2000: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC)
A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA
családjai, illetve a PowerPC Consortium PowerPC családja
4.3.2. RISC processzorok kiszorulása (2)
1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a 32-bites x86 architektúrát leváltó új generációt
4.3.3. Fejlődési korlátok megjelenése (1)
Párhuzamos buszok frekvenciakorlátja
Disszipációs korlát
Hatékonysági korlát(5. pont)
(6. pont)
(7. pont)
•
•
•
4.3.3. Fejlődési korlátok megjelenése (2)
Párhuzamos buszok frekvenciakorlátja
Disszipációs korlát
Hatékonysági korlát
(5. pont)
(6. pont)
(7. pont)
•
•
•
Órafrekvenciákstagnálása
Disszipáció csökkentéselőtérbe kerülése
Soros buszokmegjelenése
A processzor és a memória közötti sebességolló
5.1. Áttekintés
5. A második hatékonysági korlát
Alapvető ok:
(növekvő órafrekvenciákon tágul)
Memória átviteli rátája
DRAM késleltetési ideje
A processzor busz átviteli rátája
Cache tárak elérési ideje
5.1. Áttekintés (2)
A sebességolló konkrét megnyilvánulásai:
•
•
•
•
5.1 Áttelomtás (3)
The scene of main memories
1 Used in the Cell BE and the PlayStation 3, but not yet in desktops or servers
Ábra: Legfontosabb DRAM típusok
DRAM
(1970)FBDIMM
(2006)DRDRAM
(1999)DDR3
(2007)DDR2
(2004)DDR
(2000)SDRAM
(1996)FPM
(1983)
FP
(~1974)
XDR
(2006)1Year of intro.
Asynchronous DRAMs Synchronous DRAMs
DRAMs with parallel bus connection
DRAMs with serial bus connection
DRAMs for general use
Main stream DRAM types Challenging DRAM types
EDO
(1995)
Commodity DRAMs
486 DX P PII PIII386 DX
86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99
200
180
160
140
120
100
80
60
40
20
2000
*
PC AT
*
*
* *
**
**
**
16 K 64 K 256 K 256 K 64 M
Year
processor
Chipset
Typ. DRAMsize (bits)
(ns)
FPM
4 M1 M 1 M 16 M 128 M
64 M
16 M64 M
256 M
200
150
100
8080
60
70
5060
50
35
EDOFPM
EDOSDRAM
RDRAMSDRAM
64 K
01 02 03 04 05 06 07
DRAM FPM
DRAMDRAM DRAM
64 K
P4
64 M128 M256 M
SDRAM
Core2
512 M
1 G2 G
DDR2
*****
*
30
30 2540
24 22
128 K 128 K256 K
256 M512 M
1 G
DDR DDRDDR2
DDR3DDR2
40*
Desktop
DRAM type
Readlatency1
1 Read latency of DRAM, FPM, EDO and BEDO parts = tRAC (Row access time (time from row address until data valid)) Read latency of SDRAM parts = CL + tRCD (Cslumn delay + Row to Cloumn delay)
2 The 815 chipset support SDRAM while the 820 RDRAM
512 M1 G
P35965915845
256 M512 M
1 G
8453
512 M
RDRAM
128 M256 M
8152
8202850
EDOFPM
SDRAM
4 M256 K
FPM
1 M
440ZX430VX430FX420TX 430LX
3 A new revision of the 845 supports DDR instead of SDRAM
DRAM FPM
16 M4 M
5.2. A processzor és a memória közötti sebességolló (2)
5.1b ábra: DRAM chipek késleltetési ideje
Pentium D
5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns)
486 DX P PPro PII PIII386 DXPC AT(286)(8088)
P4
Memory latencyns
300
200
100
*
** *
*
155135 140
120
210
*200
86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99 2000 Year01 02 03 04 05 06 07 08
*160
*110
*85
*70
50
Core2processorChipset
Typ. DRAMparts (bits)
Desktop
DRAM type
16 K
DRAM
64 K 64 K
DRAMDRAM
64 K
128 K 128 K256 K
256 K1 M
DRAM FPM
DRAM FPM
256 K
FPM
4 M1 M
256 K
FPM
1 M
420TX 430LX
16 M64 M
EDOFPM
EDOFPM
SDRAM
4 M
430VX430FX
16 M4 M 64 M
128 M16 M64 M
256 M
EDOSDRAM
RDRAMSDRAM
64 M128 M256 M
SDRAM DDR
845
256 M512 M
1 G
8453
512 M
RDRAM
128 M256 M
8152
8202850440ZX
512 M
1 G2 G
DDR2
256 M512 M
1 G
DDRDDR2
DDR3DDR2
512 M1 G
P35965915
RDRAM
5.2. A processzor és a memória közötti sebességolló (3)
Pentium D
486 DX P PPro PII PIII386 DXPC AT(286)(8088)
P4 Core2processorChipset
Typ. DRAMparts (bits)
Desktop
DRAM type
16 K
DRAM
64 K 64 K
DRAMDRAM
64 K
128 K 128 K256 K
256 K1 M
DRAM FPM
DRAM FPM
256 K
FPM
4 M1 M
256 K
FPM
1 M
420TX 430LX
16 M64 M
EDOFPM
EDOFPM
SDRAM
4 M
430VX430FX
16 M4 M 64 M
128 M16 M64 M
256 M
EDOSDRAM
RDRAMSDRAM
64 M128 M256 M
SDRAM DDR
845
256 M512 M
1 G
8453
512 M
RDRAM
128 M256 M
8152
8202850440ZX
512 M
1 G2 G
DDR2
256 M512 M
1 G
DDRDDR2
DDR3DDR2
512 M1 G
P35965915
Memory latencyin proc. cycles
86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99
100
10
12000 Year
50
1000
3020
500
200
235
*
*
*
10
40
85
300
**
*
1 1
3
01 02 03 04 05 06 07 08
* **
*240 220 280
180RDRAM
5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban)
5.2. A processzor és a memória közötti sebességolló (4)
Pentium D
5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás)
0.20
0.40
0.30
1.0 2.0fc
1.5 2.50.5
0.10
**
*
**
*
*
*
**
*** *
3.0 3.5
*
*
*
**
4.0
Tmemory/f c
*
*
*
**
**
*
*
*
** *
*
**
*
0.60
0.50
0.80
0.70
1.00
0.90
Pentium
Pentium Pro
Pentium II
Pentium III Pentium 4
PC-66
PC-100
PC-133
DDR 266
PC-800D
DDR 333
DDR 333D
** *
******
DDR 400
DDR 400DDDR 533D
*
*
*
*
*
*
*
*
FPM
EDO
(GHz)
5.2. A processzor és a memória közötti sebességolló (5)
5.4. ábra: A processzor busz (FSB) relatív átviteli rátája
5.2. A processzor és a memória közötti sebességolló (6)
0.20
0.40
0.30
1.0 2.0fc
1.5 2.50.5
0.10
*
*
*
*
*
*
*
**
**
**
*
3.0 3.5
**
*
*
*
4.0
Tpb/f c
**
*
*
*
*
*
**
*
*
*
*
*
**
*
0.60
0.50
0.80
0.70
1.00
0.90
Pentium
Pentium Pro
Pentium II
Pentium III
Pentium 4
66
100
133 400 533
8001066
(GHz)
fc max at intro. (GHz)
L2 size(Kbyte)
L2 latency(clock cycles)
Willamette 1.5 128 7
Northwood 2.0 512 16
Prescott 3.4 1024 23
5.3. ábra: Intel Pentium 4 L2 cache tárak elérési ideje
5.2. A processzor és a memória közötti sebességolló (7)
5.3. A 3. generációs szuperskalárok hatékonysága (1)
5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén
0.40
0.5
0.45
1.0 2.0fc
1.5 2.50.5
0.35
0.30
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
0.55
3.0 3.5
***
**
*
*
**
*
**
*
*
4.0
Katmai512K dir L2
Coppermine256K on-die L2
Willamette256K on-die L2
Northwood A512K on-die L2
Prescott (1M)1M on-die L2
Prescott (2M)2M on-die L2
Irwindale512K on-die L2
2M on-die L3
800 MHz/PC-3200/SATA-150/HT800 MHz/PC-3200/ATA-100
100 MHzPC-100
SCSI-U2W
100 MHzPC-100
ATA-100
100 MHzPC-133
ATA-100
400 MHzPC-800 RDRAM
ATA-66
400 MHzPC-800 RDRAM
ATA-66
800 MHzPC-4300
SATA-150
Pentium 4Pentium III
SPECint_base2000/f c
Northwood C512K on-die L2
~~
800 MHz/PC-3200/ATA-100
533 MHzPC-800 RDRAM
ATA-100
800 MHzPC-3200
SATA-150HT
**
*
800 MHz/PC-2667/ATA-100
Northwood B512K on-die L2
* *
(GHz)
FSB órafrekvenciaMemoria átviteli rátája
Háttértár típusa
5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén
0.40
0.50
0.45
1.5 2.5fc
2.0 3.01.0
0.35
0.30
* *
*
*
*
***
*
**
* *
*
**
*
*
0.65
3.5
**
*Palomino
256K on-die L2
Clawhammer1M on-die L2
Thorougbread256K on-die L2
200 MHzPC-100
ATA-66200 MHzPC-100
ATA-66
200 MHzPC-133
ATA-66
200 MHzPC-133
ATA-66
266 MHzPC-2100
ATA-100
266 MHzPC-2100
ATA-100
333 MHz/PC-2700/ATA-100
Athlon-XP
Athlon
SPECint_base2000/f c
0.5
Barton512K on-die L2
Thunderbird256K on-die L2
400 MHz/PC-3200/ATA-100
PC-3200ATA-133
f =fFSBmemory
K7512K dir L21
K75512K dir L22,3
1 f =0.5*fL2 c 2 f =0.4*fL2 c (f =750/800/850 MHz)c3 f =0.3*fL2 c (f =900/950/1000 MHz)c
Athlon 64
~~0.60
~~4.0
(GHz)
5.3. A 3. generációs szuperskalárok hatékonysága (2)
5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők
fc
Core efficiency
Decreasing core efficiencydue to broadening Increasing core efficiency
primarily due to enhancing thememory subsystem(memory, FSB, L2)
(GHz)
the memory gap
5.3. A 3. generációs szuperskalárok hatékonysága (3)
5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása
0.40
0.50
0.45
1.0 2.0fc1.5 2.50.5
0.35
0.30
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
3.0 3.5
***
**
4.0
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**256K/200
* *
***
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
*** 1M/fFSB
1000
0.55
1200 1400 1600 1800
Pentium IIIPentium IV
Athlon
Athlon XP
Athlon 64
(GHz)
5.3. A 3. generációs szuperskalárok hatékonysága (4)
5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása
0.40
0.50
0.45
0.35
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
***
**
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**
256K/200
* *
***
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
*** 1M/fFSB
1000
0.55
1200 1400 1600 1800
Designs preferringcore efficiency
Designs preferring clock frequency
1.0 2.0fc1.5 2.50.5 3.0 3.5 4.0
(GHz)
0.75
0.70
0.80
*2M/400
Pentium IIIPentium IV
Athlon
Athlon XP
Athlon 64
Pentium M
5.3. A 3. generációs szuperskalárok hatékonysága (5)
Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet
A processzorok hatékonysági korlátjának konzekvenciája:
5.3. A 3. generációs szuperskalárok hatékonysága (6)
Magasabb órafrekvencia Magasabb disszipáció
Az órafrekvenciák stagnálása
6. A disszipációs korlát (1)
Disszipáció (D) :
Dd=A*C*V2*fc
ahol:A: aktív kapuk részarányaC: a kapuk összesített kapacitásaV: tápfeszültségfc: órafrekvencia
Ileak: szivárgási áram
Dinamikus Statikus
Ds=V*Ileak
In addition: higher fc requires higher Vdd (Vdd ≈ const x fc) []
http://www.anandtech.com/show/3742/intels-core-i5655k-core-i7875k-overclocked-and-analysed-/2
Figure: Core voltage (Vdd) vs. clock frequency (fc) for Intel’s Westmere processors []
6. A disszipációs korlát (2)
6.2. ábra: Intel processzorok fajlagos disszipációja
5
10
50
100
20
2100 1000 5000
*
*
*
*
**
****
*
*
*
*
**
*
*
* **
*
*
*
Prescott
Northwood
WillametteTualatin
Coppermine
Katmai
Deshutes
Klamath
P6
P54CS
P54C
P5
*
(W/cm )2
fc2000200 50020 50
D/die area
0.8μ 0.6μ
0.6μ
0.35μ
0.35μ
0.35μ
0.25μ
0.25μ
0.18μ
0.18μ
0.13μ0.13μ
0.09μ
(MHz)
6. A disszipációs korlát (2)
6. A disszipációs korlát (2b)
A disszipáció növekedés problémájának felismerése (ISSCC 2001, Gelsinger P. Intel)
6. A disszipációs korlát (2c)
A tápfeszűltség skálázása a gyártási technológiával
Forrás: Gelsinger P. IDF, June 7 2006
6.3. ábra: Intel és AMD processzorok
0.40
0.50
0.45
0.35
**
*
*
*
*
**
*
*
*
*
*
**
*
*
****
***
**
512K/100
256K/100
256K/400
512K/400
1M/800
2M/800
SPECint_base2000/f c
512K/800
~~
**
*
512K/533
* *
**
256K/200
* *
***
**512K/200
*
*
**
**
*
256K/266
*
*
512K/400
512K/333
0.65
0.60
*** 1M/fFSB
0.55
Thermal
wall
Core design,
technology
1.0 2.0fc1.5 2.50.5 3.0 3.5 4.0 ~~ (GHz)
1000 1200 1400 1600 18000.80
*2M/400
0.75
0.70
Pentium IIIPentium IV
Athlon
Athlon XP
Athlon 64
Pentium M
6. A disszipációs korlát (3)
11/00 1/02^
0.18 /42 mtrs
^
400 MHz FSB
Northwood-A
Xeon DP line
Desktop-line
Celeron-line
Willamette
1.4/1.5 GHz
(Value PC-s)
On-die 256K L2
0.13 /55 mtrs
400 MHz FSB
2A/2.2 GHzOn-die 512K L2
2/02
^
0.13 /55 mtrs
400 MHz FSB
1.8/2/2.2 GHzOn-die 512K L2
5/01
^
0.18 /42 mtrs
400 MHz FSB
1.4/1.5/1.7 GHzOn-die 256 K L2
11/02
^Prestonia-B
0.13 /55 mtrs
533 MHz FSB
2/2.4/2.6/2.8 GHzOn-die 512K L2
Foster Prestonia-A Nocona
2/04
^
0.09 /125mtrs
800 MHz FSB
2.80E/3E/3.20E/3.40E GHzOn-die 1M L2
2000 2001 2002 2003 2004
Xeon - MP line
3/02^
0.18 /108 mtrs
400 MHz FSB
1.4/1.5/1.6 GHzOn-die 256K L2
11/02^
Gallatin
0.13 /178 mtrs
400 MHz FSB
1.5/1.9/2 GHzOn-die 512K L2
Foster-MP
On-die 512K/1M L3 On-die 1M/2M L3
5/02^
Northwood-B
0.13 /55 mtrs
533 MHz FSB
2.26/2.40B/2.53 GHzOn-die 512K L2
5/02^
Willamette-128
400 MHz FSB
1.7 GHz
11/02^
6/04^
0.09 / 125 mtrs
800 MHz FSB
2.8/3.0/3.2/3.4/3.6 GHzOn-die 1M L2
Northwood-B
533 MHz FSB
3.06 GHzOn-die 512K L2
0.13 /55 mtrs
400 MHz FSB
2 GHzOn-die 128K L2
0.18 0.13
9/02^
Northwood-128
On-die 128K L2
Cores supporting hyperthreading
5/03
^Northwood-C
800 MHz FSB
2.40C/2.60C/2.80C GHzOn-die 512K L2
0.13 /55 mtrs
Cores with EM64T implemented but not enabled
2005
2Q/05^
Potomac
0.09 > 3.5 MHz
On-die 1M L2On-die 8M L3 (?)
Irwindale-C
1Q/05^
0.09 3.0/3.2/3.4/3.6 GHz
On-die 512K L2, 2M L3
Jayhawk
2Q/05^
0.09
(Cancelled 5/04)
3.8 GHzOn-die 1M L2
3Q/05
^Tejas
0.09 /4.0/4.2 GHz
On-die 1M L2(Cancelled 5/04)
Irwindale-A
11/03^
800 MHz FSB
3.2EE GHzOn-die 512K L2, 2M L3
0.13 /178 mtrs
Cores supporting EM64T
6/04
^
0.09 /125mtrs
800 MHz FSB
2.8/3.0/3.2/3.4/3.6 GHzOn-die 1M L2
11/04^
Irwindale-B
0.13 /178mtrs
1066 MHz FSB
3.4EE GHzOn-die 512K L2, 2 MB L3
533 MHz FSB
2.4/2.53/2.66/2.8 GHzOn-die 256K L2
0.09
6/04^
Celeron-D
PGA 603 PGA 603
PGA 603 PGA 604
PGA 478 LGA 775
PGA 423 PGA 478 PGA 478 PGA 478 PGA 478 PGA 478 LGA 775
PGA 478 PGA 478
PGA 603 PGA 603
0.18 /42 mtrs
^
400 MHz FSB
Willamette
On-die 256K L2
PGA 478
3/04^
Gallatin
0.13 /286 mtrs
400 MHz FSB
2.2/2.7/3.0 GHzOn-die 512K L2
On-die 2M/4M L3
PGA 603
8/01
PGA 478533 MHz FSB
2.53/2.66/2.80/2.93 GHzOn-die 256K L2
0.09
9/04^
Celeron-D
Extreme Edition
7/03
^Prestonia-C
0.13 /178 mtrs
533 MHz FSB
3.06 GHzOn-die 512K L2, 1M L3
PGA 603
1.4 ... 2.0 GHz0.09 /125mtrs
800 MHz FSB
3.20F/3.40F/3.60F GHzOn-die 1M L2
LGA 775
8/04
^
12 13
8,9,10PrescottPrescott Prescott-F115 6,7
LGA 775
42,3
1 1
6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra)
6. A disszipációs korlát (4)
6.5. ábra: A fajlagos disszipáció értékének növekedése (általában)
Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., 2005
6. A disszipációs korlát (5)
6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje
Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75.
6. A disszipációs korlát (6)
Forrás: http://download.intel.com/pressroom/kits/45nm/Press45nm107_FINAL.pdf
6. A disszipációs korlát (7)
Kapcsolási sebesség: 120 %
6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1)
•
6. A disszipációs korlát (7b)
6.7 ábra: A szívárgási áramok csökkenése
Forrás: http://download.intel.com/pressroom/kits/45nm/Press45nm107_FINAL.pdf
The traditional planar transistor [82]
6. A disszipációs korlát (7c)
Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011, http://download.intel.com/newsroom/kits/22nm/pdfs/22nm-Details_Presentation.pdf
The 22 nm Tri-Gate transistor-1
6. A disszipációs korlát (7d)
Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011, http://download.intel.com/newsroom/kits/22nm/pdfs/22nm-Details_Presentation.pdf
The 22 nm Tri-Gate transistor-2
Forrás: Bohr M., Mistry K.: Intel’s Revolutionary 22 nm transistor technology, May 2011, http://download.intel.com/newsroom/kits/22nm/pdfs/22nm-Details_Presentation.pdf
6. A disszipációs korlát (7e)
A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése
Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása
A disszipációs korlát konzekvenciái:
6. A disszipációs korlát (8)
A processzorok tervezésének új paradigmája: Teljesítmény/Watt
6.8 ábra: Intel 2006-ban nyilvánosságra hozott utiterve, mely megadta a gyártási technológiák fejlesztési ütemét és a tervezett új processzor architektúrák
kibocsátásának idejét [74]
6. A disszipációs korlát (9)
Intel processzor tervezési filozófiájának változása
Forrás: http://www.xbitlabs.com/news/cpu/display/20060428162855.html
Az adatbeolvasás mechanizmusa a buszok vevőoldalán
7. Párhuzamos buszok frekvenciakorlátja (1)
A busz vevőrésze a felfutó órajellel vezérelten bekapuzza az adat jelet.
Clock D Qnext
Rising edge 0 0
Rising edge 1 1
Non-Rising X Q
A bekapuzás D flip flop-ok használatán alapul.
D flip-flop
Az időbeli feltételeket az órajel felfutó élére vonatkoztatott adat érvényes ablak (Data Valid Window, DVW) írja le,a feszültségszint feltételeket egy minimálisan elvárt H szint (VHmin) és egy maximálisan megengedett L szint (VLmax) definiálja.
Forbidden V areafor the data signal
t
V
VLmax
VHmin
DVW
VL
Data
VH
DVW: Min. idő, amig a jelnek érvényesnek kell lennie
Órajel (adat bekapuzáshoz)
7. Párhuzamos buszok frekvenciakorlátja (1b)
Az adat helyes bekapuzásának időbeli és feszültségszint feltételei vannak
A DVW két feltételt támaszt,
7.1 Ábra: Az adat érvényes ablak (DVW) értelmezése ideális jel esetén
Data
CK
tS
tH
Min. DVW
7. Párhuzamos buszok frekvenciakorlátja (2)
ts: setup timetH: hold time
• egyrészt az adat-jelnek már érvényesnek kell lennie legalább tS idővel az órajel jel felfutó élének megérkezése előtt, és• másrészt pedig érvényesnek kell maradnia legalább tH ideig az órajel felfutó élét követőenannak érdekében, hogy a vevőáramkör az adat-bitet helyesen kapuzza be.
Az adat érvényes ablak (DVW) értelmezése
DVWmin
max
7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával
• Adatjelek egymásra irásával előállított kép. •Az elvárt adat-beolvasási követelmények teljesülésének az ellenőrzésére szolgál.
7. Párhuzamos buszok frekvenciakorlátja (3)
A szem diagram (Eye diagram)
DVW
Elektromos jelenségek, elsődlegesen
behatárolják a buszok adatátviteli sebességét.
7. Párhuzamos buszok frekvenciakorlátja (4)
Az adatbeolvasás tolerancia sávjait csökkentő (zavaró) elektromos jelenségek
• a skew• jel-visszaverődések (reflections), melyek vonal lezárási illesztettlenségek miatt lépnek fel, és • a jitter
csökkentik az adat-beolvasás tolerancia sávjait, és ezáltal
7.3 Ábra: Egy adott jelvezeték két pontján fellépő futási idő különbség valamely lapkán vagy NYÁK-on
A jelek felfutó (vagy lefutó) élei közötti időkülönbség, mely kétféleképpen értelmezhető.a) A skew értelmezése egy adott jel (pl. órajel) vezetékének különböző pontjain egy
lapkán vagy egy NYÁK-on.
7. Párhuzamos buszok frekvenciakorlátja (5)
Skew (általában)
7. Párhuzamos buszok frekvenciakorlátja (5b)
E tekintetben különösen fontos pl. egy lapkán lévö áramköri elemek órajelekkel való ellátása
650 mm2
Példa: IBM Power 8 processzor lapka órajelekkel való ellátása
Forrás: http://www.itjungle.com/tfh/tfh090913-story01.html
a) b)
c)
a) b)
c)
Bináris fa alapúórajel ellátás
H-fa alapúórajel ellátás
Fa-alapú órajel ellátás
Bináris fa H-fa
7. Párhuzamos buszok frekvenciakorlátja (5c)
Példa órajel elosztó hálózatokra
7.4. ábra: Párhuzamos buszok bit-vezetékein futó jelek élei között megjelenő futási idő különbségek (skew)
63. bit
0. bit
Skew
7. Párhuzamos buszok frekvenciakorlátja (6)
b) A skew értelmezése mint egy párhuzamos busz különböző bit-vezetékein futó jelek élei közőtt megjelenő eltolódás, melyet a futási idők eltérése okoz.
A párhuzamos buszok egyes bitvezetékei között megjelenő skew előidéző okai (elsődlegesen)
7. Párhuzamos buszok frekvenciakorlátja (7)
1) Párhuzamos buszok egyes bit-vezetékeinek eltérő hosszai NYÁK lapokon. Adott jelterjedési sebesség (time of flight) mellett, melynek értéke kb. 170 ps/inch) [8], ill. kb. 60 ps/cm, a hosszeltérések él-eltolódásokhoz vezetnek.
A hossz-különbségeket a tervezők NYÁK lapokon (pl. alaplapokon) bizonyos mértékben kiegyenlítik.
7.5. ábra: A futási idő különbségek (skew) kiegyenlítése az MSI 915 G Combo alaplapon
7. Párhuzamos buszok frekvenciakorlátja (8)
Ábra: Jelvezetékek kapacitív terhelése miatt fellépő skew [8]
CK-1
CK-2
Skew
7. Párhuzamos buszok frekvenciakorlátja (9)
2) NYÁK vezetékek eltérő kapacitív terhelése miatt fellépő skew (kb. 50 ps per pF).
A GHz tartományban a NYÁK-okon (pl. az alaplapokon) kialakított rézvezetékek tápvezetékként működnek (transmission lines).
7. Párhuzamos buszok frekvenciakorlátja (10)
Visszaverődések (reflections)
Annak érdekében, hogy a tápvezetékeken ne álljanak elő visszaverődések a tápvezetékeket a hullám impedanciájukkal (characteristic impedance) (Z0) kell lezárni, mely kb. 50-70 Ω alaplapon illetve DIMM kártyán kialakított rézvezetékek esetén.
Ha a tápvonalat nem a hullám impedanciájával zárjuk le vagy a tápvonalon inhomogenitások vannak, visszaverődések keletkeznek, melyek csőkkentik az adat-beolvasásnál rendelkezésre álló tolerancia sávokat.
Z0
7.6 Ábra: Egy szem diagramon látható visszaverődések, melyek a tápvonal lezárás illesztetlensége miatt keletkeztek
7. Párhuzamos buszok frekvenciakorlátja (11)
Példa visszaverődésekre
Memória vezérlő (MCH)
DIMM kártyák
Alaplapon kiképzett vezetékek
7.7 Ábra: A memória vezérlőt és a DIMM kártyákon elhelyezett DRAM chipeket összekötővezetékeken fellépő inhomogenitások ([6] alapján)
Az adatút egyespontjain
inhomogenitásokjelentkeznek.
7. Párhuzamos buszok frekvenciakorlátja (12)
Példa inhomogenitásokra a mem. vezérlőt és a DRAM chipeket összekötő adatút esetén
7.7/b ábra: Vezetéklezárások DDR3 DIMM-ek esetén (Rs = 10-15 Ω, RT = 36-39 Ω, RZQ = 240 Ω ±1%)
Vss
VTT
Rs
Dyn. ODT
ZQ
Vss
RZQ
Memory Contr.
Comm., Contr.Addr.
DQ, DQS/#DM
DDR3 DIMM DDR3 DIMM
SSTL_15
Vss
VTT
Rs ZQ
Vss
RZQ
Dyn. ODT
R1
R2
R1
R2
VTT
RT
VTT
RT
7. Párhuzamos buszok frekvenciakorlátja (12b)
Vezetéklezárások DDR3 DIMM-ek esetén
ODT: On-Die Termination
• Jelentése: fázisbizonytalanság, mely a jelek felfutó és lefutó éleit elmossa.
7.8 Ábra: Jelek felfutó illetve lefutó élein jelentkező jitter
A jitter főbb forrásai
• Áthallás (crosstalk), melyet a szomszédos vezetékek közötti csatolás okoz a NYÁK-on,• ISI (Inter-Symbol Interference): egymást követő eltérő jelszintek (pl. H-L) esetén ha az előző jel még nem kellő mértékben csengett le, a következő jel egy maradvány jelszintről indul. Akkor áll elő, ha busz magasabb frekvencián működik minthogy a jelek le tudnának csengeni,• EMI (Electromagnetic Interference) melyet külső vagy belső forrásokból származó elektromágneses sugárzás okoz.
7. Párhuzamos buszok frekvenciakorlátja (13)
Jitter (fázis bizonytalanság)
A jitter leszűkíti az adatok beolvasásánál rendelkezésre álló tolerancia sávokat mind a DVW, mind a jelszintek tekintetében.
• A jitter sztohasztikus jellegű.
• A vevő oldalon csökkentik a jelek beolvasásának tolerancia sávjait.
7. Párhuzamos buszok frekvenciakorlátja (14)
A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-1
7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával
DVWmin
max
DVW
• Ez bekorlátozza a párhuzamos buszok átviteli sebességét.
7. Párhuzamos buszok frekvenciakorlátja (15)
A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-2
• A tárgyalt elektromos zavaró jelenségek egyúttal bekorlátozzák az egy memória csatornára csatlakoztatható DIMM-ek számát is. Pl. hagyományos rendszerarchitektúrákban, melyekben a memória csatornák az MCH-ra (északi híd) csatlakoznak, DDR2 vagy DDR3 memóriák esetén
• általában csak két DIMM csatlakoztatható,• sőt magasabb átviteli ráták esetén (pl. DDR3-1866 vagy -2133 MT/s esetén) akár csak egyetlen egy.
Soros buszok használata
7.9. ábra: Jelátvitel soros buszon
D+
D-
"0" "1"
7. Párhuzamos buszok frekvenciakorlátja (16)
Párhuzamos buszok frekvenciakorlátja által kiváltott trend:
Vezetékpár(lane)
16 data 2 protocol
2 CRC
TX Unidirectional link
RX Unidirectional link
7.3 ábra: A QuickPath Interconnect busz (QPI-bus) jelei [Forrás: Intel]
Példa: A soros QuickPath Interconnect bus (QPI bus)
(DDR data transfer)
7. Párhuzamos buszok frekvenciakorlátja (16a)
Példák “gyors” soros buszokra:• PCI-e• SATA• SAS• HT (HyperTransport bus)• QPI (Quick Path Interconnect bus)
Soros buszok bevezetése lassú periféria buszok esetén is (költségokokból!):
• USB• USB2
7. Párhuzamos buszok frekvenciakorlátja (17)
Forrás: Vogt, IDF Spring 2004
7. Párhuzamos buszok frekvenciakorlátja (18)
A soros buszok használata nagyban leegyszerűsíti az alaplapok tervezését is
7.10 Ábra: Vezeték összeköttetések alaplapon párhuzamos és soros memória busz esetén
Az órafrekvenciák növelésén alapuló fejlődési főirányhatékonysági, disszipációs és skew korlátokba ütközik
és tovább már nem követhető
A fejlődési korlátok felerősödésének konzekvenciája-1
4.3.3. A fejlődési korlátok összefoglalása
Párhuzamos buszok frekvenciakorlátja
Disszipációs korlát
Hatékonysági korlát(5. pont)
(6. pont)
(7. pont)
•
•
•
Órafrekvenciák bekorlátozása
Disszipáció csökkentés,Teljesítmény/Watt
Sorosbuszok
1
101
102
103
1980 1990 2000 2010
*
*
*
~102 x/10év104
105P
t
1
101
102
1980 1990 2000 2010
*
*~10x/10év
IPC
t
2. gen superscalar
The evolution of P, IPC and fc
~102 x/10év
1
101
102
1980 1990 2000 2010
*
*~10x/10év
fc
t
Az órafrekvencia erőteljes növelése
EPIC architektúrák kifejlesztése
effca IPCfP
A fejlődés fővonala
(4. – 7. pontok)
8. EPIC architektúrák/processzorok (1)
(8. pont)
Szuperskalár feldolgozás elve
FE
FE
FE
dinamikusfüggőség kezelés
Processzor
függő utasítások
utasítások
VLIW feldolgozás elve
FE
FE
FE
VLIW: Very Large Instruction Word
független utasítások(statikus függőségkezelés)
Processzor
8.1. ábra: VLIW processzorok működési elve
8. EPIC architektúrák/processzorok (2)
VLIW EPIC
EPIC: Explicitly Parallel Instruction Computer
Továbbfejlesztett VLIW
• elágazásbecslés• explicit cache utasítások• •
8. EPIC architektúrák/processzorok (3)
(fejlett szuperskalár vonások integrálása)
Forrás: http://www.realworldtech.com/countdown-to-ia64/
8. EPIC architektúrák/processzorok (4)
8.2 ábra: Az Intel processzorok fejlesztésének kezdete
5/2001
EPIC
MP Platforms
MP Cores
Itanium 2 Itanium 2 Itanium 9100Itanium 2
10/200711/20046/20037/2002
(McKinley) SC (Madison 6M) SC (Madison 9M) SC (Montvale) DC
Itanium 2 Itanium 2(McKinley/Madison) (Montecito/Montvale)
130 nm/410 mtrs1.5 GHz
256 kB L26/4/3 MB L3 128 bit FSB
533/400 MT/sPAC611
FSB-basedVastly enhanced microarchitecture
FSB-basedDual-threaded
Enh. cache arch.Cache safe techn.
180 nm/220 mtrs900/1000 MHz
256 kB L23/1.5 MB L3128 bit FSB400 MT/sPAC611
130 nm/592 mtrs1.6 GHz
256 kB L29 MB L3
128 bit FSB533 MT/sPAC611
90 nm/1720 mtrs1.66/1.6 GHz
1 MB L2I/256 kB L2D2 x 12 MB L3
128bit667/533 MT/s
PPGA611
Itanium 9000
(Montecito) DC
90 nm/1720 mtrs1.6 GHz
1MB L2I/256 kB L2D2*12 MB L3128-bit FSB533 MT/sPPGA611
1: Special memory cards are used SNC: Scalable Node Controller
7/2006
Itanium
5/2001
180 nm/25 mtrs733/800 MHz
96 KB L22/4 MB dir. L3
64-bit FSB266 MT/sPAC418
FSB-based
(Merced SC)
Itanium(Merced)
8. EPIC architektúrák/processzorok (5)
8.3 ábra: Az Intel Itanium család (1)
0.5
0.7
0.6
1000 2000fc
1500500
0.4*
*
0.9
0.8
1.0
Itanium
Itanium 2
64-bit FSB/266 MT/s
*
**
*
*
*
(MHz)~~~~
SPECint_base2000/f c
128-bit FSB/400 MT/s
96K L2/4M dir. L3
96K L2/2M dir. L3
256K L2/9M L3/DDR 266256K L2/6M L3/DDR 266
256K L2/3M L3/DDR 266
8.4. ábra: Itanium processzorok hatékonysága
8. EPIC architektúrák/processzorok (6)
MP Platforms
MP Cores
Itanium 2 Itanium 2 Itanium 9100Itanium 2
10/200711/20046/20037/2002
(McKinley) SC (Madison 6M) SC (Madison 9M) SC (Montvale) DC
Itanium 2 Itanium 2(McKinley/Madison) (Montecito/Montvale)
130 nm/410 mtrs1.5 GHz
256 kB L26/4/3 MB L3 128 bit FSB
533/400 MT/sPAC611
FSB-basedVastly enhanced microarchitecture
FSB-basedDual-threaded
Enh. cache arch.Cache safe techn.
180 nm/220 mtrs900/1000 MHz
256 kB L23/1.5 MB L3128 bit FSB400 MT/sPAC611
130 nm/592 mtrs1.6 GHz
256 kB L29 MB L3
128 bit FSB533 MT/sPAC611
90 nm/1720 mtrs1.66/1.6 GHz
1 MB L2I/256 kB L2D2 x 12 MB L3
128bit667/533 MT/s
PPGA611
Itanium 9000
(Montecito) DC
90 nm/1720 mtrs1.6 GHz
1MB L2I/256 kB L2D2*12 MB L3128-bit FSB533 MT/sPPGA611
1: Special memory cards are used SNC: Scalable Node Controller
7/2006
Itanium
5/2001
180 nm/25 mtrs733/800 MHz
96 KB L22/4 MB dir. L3
64-bit FSB266 MT/sPAC418
FSB-based
(Merced SC)
Itanium(Merced)
8. EPIC architektúrák/processzorok (6a)
8.3 ábra: Az Intel Itanium család (1)
0.5
0.7
0.6
1000 2000fc
1500500
0.4*
*
0.9
0.8
1.0
Itanium
Itanium 2
64-bit FSB/266 MT/s
*
**
*
*
*
(MHz)~~~~
SPECint_base2000/f c
128-bit FSB/400 MT/s
96K L2/4M dir. L3
96K L2/2M dir. L3
256K L2/9M L3/DDR 266256K L2/6M L3/DDR 266
256K L2/3M L3/DDR 266
8.4. ábra: Itanium processzorok hatékonysága
8. EPIC architektúrák/processzorok (6b)
8.5. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások
Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, 2000
8. EPIC architektúrák/processzorok (7)
8.7. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása
8. EPIC architektúrák/processzorok (8)
MP Platforms
MP Cores Itanium 9500 Itanium xxItanium 9300
2014 or 201511/20122/2010
(Tukwila) 4C (Poulson) 8C (Kittson) na
Boxboro-MC
32 nm/3100 mtrs2.53-1.73 GHz
512 kB L2I/256 kB L2D32 MB shared L3 2 x MC x 2 SMI x2 x DDR3-10664 full/2 half QPI
6.4/4.8 GT/sLGA1248
New instructionsNew microarchitecture
Integrated MCSerial SMI links
Ring bus interconnectTurbo Boost
QPI-based SMMDirectory cache Vastly enh. RAS
65 nm/2050 mtrs1.73-1.33 GHz
512 kB L2I/256 kB L2D6 MB L3/core
2 x MC x 2 SMI x2 x DDR3-800
4 full/2 half QPI4.8 GT/sLGA1248
32 nm/na mtrsnanananananana.
LGA1248
MC: Memory ControllerSMI: Scalable Memory Interface
Integrated MCSerial SMI links
Crossbar interconnectTurbo Boost
QPI-based SMMDirectory cacheVastly enh. RAS
8. EPIC architektúrák/processzorok (9)
8.8 ábra: Az Intel Itanium család (2)
az EPIC architektúrák/processzorokkiszorulása
8. EPIC architektúrák/processzorok (10)
• Microsoft 2010 áprilisában bejelentette, hogy a továbbiakban nem támogatja az Itanium architektúrát. Windows Server 2008 R2/SQL Server 2008 R2 és Visual Studio 2010 lesz az utolsó szerver szoftver környezet, mely támogatja az Itanium-ot.• 2011 márciusában Oracle is bejelentette, hogy a jövőben beszünteti szoftver fejlesztéseit az Itanium architektúrára.
Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett,
ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött
Egymagos szuperskalárok alkonya
9. Paradigmaváltás (1)