korszakváltás a processzorok fejlődésében

Post on 30-Jan-2016

39 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Korszakváltás a processzorok fejlődésében. Sima Dezső 20 1 2 őszi félév (verzió 3.2). Áttekintés. 1 Processzorok teljesítménye. 2 A processzorok hatékonysága. 3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok. 4 Az órafrekvencia erőteljes növelése. - PowerPoint PPT Presentation

TRANSCRIPT

Korszakváltása processzorok fejlődésében

Sima Dezső

2012 őszi félév

(verzió 3.2)

2 A processzorok hatékonysága•

5 A Hatékonysági korlát•

9 Paradigmaváltás•

7 Párhuzamos buszok frekvenciakorlátja•

Áttekintés

6 A disszipációs korlát•

1 Processzorok teljesítménye•

3 A processzorok hatékonyságának stagnálása által kiváltott fejlődési főirányok

8 EPIC architektúrák/processzorok•

4 Az órafrekvencia erőteljes növelése•

Abszolút teljesítmény Relatív teljesítmény

Eredményesen végrehajtott utasítások száma/sec

effcai IPCfP

Eredményesen végrehajtott műveletek száma/sec (SIMD)

OPIIPCfP effcao

Egy benchmark programcsomag valamely referenciarendszeren és a vizsgált rendszeren mért futási időinek összevetése az alábbi értelmezéssel (mértani közép):

Pl: SPECint92, SPECint_base2000fc: ÓrafrekvenciaIPC: Utasítások száma/ciklus

nr t

t

t

tP

nv

nref

v1

ref1

(Pa nehezen mérhető, alkalmazásfüggő)

OPI: Műveletek száma/utasítás

1.1. Bevezetés (1)

De mivel:

1.1. Bevezetés (2)

1.1. ábra: Programcsomag egyes programjainak futásidő arányai

Forrás: http://www.spec.org

Általános célú alkalmazásokban:

1OPI

1.1. Bevezetés (3)

IPCIPCeff

ahol:IPC : kibocsájtott utasítások száma ciklusonkéntη : eredményesen végrehajtott/kibocsájtott

utasítások száma(spekulatív végrehajtás hatékonysága)

effcaia IPCfPP

1.1. Bevezetés (4)

IPCeff: a processzor hatékonysága (H)

Pa = fc * H

1.2. A processzor teljesítmények növekedése (1)

1.2. ábra: Az x86 alapú egymagos Intel processzorok FX-teljesítményének növekedése

SPECint92

5

10

50

Year86 8879 1980 81 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99

*

*

*

**

*

**

2

386/16

*

* *

*

*

* 8088/5

*0.5

100

8088/8

80286/10

80286/12

386/20 386/25

386/33

500

*

*

*1000

20

200

1

0.2

*

***

**

*

486/25

486/33486/50 486-DX2/66

Pentium/66

Pentium/100 Pentium/120

Pentium Pro/200

PII/450

PIII/600

486-DX4/100

Pentium/133 Pentium/166

Pentium/200

PII/300PII/400 PIII/500

486-DX2/50*

2000 01 02 03

5000

2000*

*

*

*

*

** *

*

PIII/1000

P4/1500P4/1700

P4/2000 P4/2200P4/2400 P4/2800

P4/3060

P4/3200

~ 100*/10 years

*

*

***

04 05

Northwood B

10000

Prescott (1M)Prescott (2M)

Leveling off

1.2. A processzor teljesítmények növekedése (2)

3.1.4. ábra: A fixpontos teljesítmények növekedése (általában - 2)

Forrás: F. Labonte, www-vlsi.stanford.edu/group/chart/specInf2000.pdf

effca IPCfP

2.1. Bevezetés

?év10/100~

2. A processzorok hatékonysága

fcSPECint_base2000/

Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02

0.05

0.1

0.02

0.5

1

0.2

0.01~~

*

**

**

* **

** *

Pentium

486DX

386DX

286

Pentium IIPentium Pro

**

Pentium III~10*/10 years

Leveling off

2. generationsuperscalars

2.1. ábra: Intel processzorok hatékonysága

2.2. A processzorok hatékonyságának növekedése (1)

2.2. ábra: Processzorok teljesítményének/hatékonyságának növekedése (általában)

Forrás:J. Birnbaum, „Architecture at HP: Two decades of Innovation”, Microprocessor Forum, October 14, 1997.

2.2. A processzorok hatékonyságának növekedése (2)

2.3. A hatékonyság növelés hozzájárulása a teljesítmények növeléséhez (2. generációig)

?

A második generációig az órafrekvencia és a hatékonyság növelése egyenlő arányban járultak hozzá a teljesítmény növeléséhez.

effca IPCfP

év10/100~ év10/10~ év10/10~

fcSPECint_base2000/

Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05

Leveling off

~ 10x/ 10 years

2. gen. szuperscalars

0.05

0.1

0.02

0.5

1

0.2

0.01~~

2.4. A hatékonyság növekedése és annak korlátja

2.4. ábra: Processzorok hatékonyságának növekedése (általában)

2.5. A hatékonyság növelés forrásai (1)

Szóhossz növelése

Időbeli párhuzamosság bevezetése, növelése

Kibocsátási párhuzamosság bevezetése, növelése

8/16 32 bit (286 386DX)

1. és 2. generációs futószalag processzorok (386DX, 486DX)

1. és 2. generációs szuperskalárok (Pentium, Pentium Pro)

fcSPECint_base2000/

Year79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978 2000 01 02 03 04 05

Leveling off

~ 10x/ 10 years

2. gen. szuperscalars

0.05

0.1

0.02

0.5

1

0.2

0.01~~

2.5. A hatékonyság növelés forrásai (2)

2.4. ábra: Processzorok hatékonyságának növekedése (általában)

Futószalag

1. gen.szuperskalár

2. gen.szuperskalár

~10x/10 év

Stagnálás

2.5. A hatékonyság növelésének korlátja (1)

Feldolgozási szélesség

4 RISC utasítás/ciklus~3 CISC utasítás/ciklus

2.3. ábra: A feldolgozás szélessége és az általános célú alkalmazásokban rejlő párhuzamosság mértéke a 2. generációs (széles) szuperskalárokban

2. generációsszuperskalárok

(széles szuperskalárok)

Forrás: Wall: Limits of ILP, WRL TN-15, Dec. 1990

Általános célú alkalmazásokban a 2. generációs (széles) szuperskalárokkal kezdődően

a hatékonyság növelésének extenzív forrásaikimerültek

Általános célú alkalmazásokban:

2.5. A hatékonyság növelésének korlátja (3)

2. generációs szuperskalárok szélessége már megközelíti rendelkezésre álló ILP mértékét

EPIC architektúrák kifejlesztése

Az órafrekvencia erőteljes növelése

effca IPCfP

A fejlődés fővonala

(4. – 7. pontok)

3. A processzor hatékonyság stagnálása által kiváltott fejlődési főirányok áttekintése

(8. pont)

A gyártási technológia vonalvastagságának csökkentése

A futószalag fokozatok logikai hosszának csökkentése

4.1. Az órafrekvencia növelésének forrásai (1)

Az órafrekvencia növelése

4. Az órafrekvencia erőteljes növelése

4.1. ábra: Az Intel gyártási technológiák fejlődése

Forrás: D. Bhandarkar: „The Dawn of a New Era”, 11. EMEA, May, 2006.

4.1. Az órafrekvencia növelésének forrásai (2)

4.3. ábra: Futószalag fokozatok logikai hossza processzorokban (FO4)

4.1. Az órafrekvencia növelésének forrásai (4)

Forrás: F. Labonte www-vlsi.stanford.edu/group/chart/CycleFO4.pdf

20

30

Year*

10

40

1990 2000

*

* *

*

Pentium(5)

2005

No of pipeline stages

Pentium Pro(~12)

Pentium 4(~20)

Athlon-64(12)

P4 Prescott(~30)

(14)Conroe

*Athlon(6)K6

(6)*

1995

*

Core Duo

4.2 ábra: A futószalag fokozatok száma Intel és AMD processzorokban

4.1. Az órafrekvencia növelésének forrásai (3)

4.4. ábra: Az x86 alapú Intel processzorok órafrekvenciájának növekedése

4.2. Az órafrekvenciák növekedési üteme (1)

5

10

50

Year

*

** *

2

8088

*

100

386

Pentium

Year of first volume shipment

cf

500

1000

20

200

*

486-DX2

79 1980 81 82 83 84 85 86 87 88 89 1990 91 92 93 94 95 96 97 98 9978

*

*

**

*

*486

*

** *

*

** *

**

Pentium II

***Pentium III

*

286

*

Pentium Pro

1

486-DX4

2000 01 02 03

2000**

***

***

*

*

5000

Pentium 4

~10*/10years

~100*/10years

04 05

* * *

Leveling off(MHz)

4.2. Az órafrekvenciák növekedési üteme (2)

4.5. ábra: Az órafrekvenciák növekedési üteme (általában)

Fejlődési korlátok megjelenése

RISC processzorok kiszorulása

4.3. Az órafrekvencia erőteljes növelésének konzekvenciái

4.3.1. Áttekintés

(4.3.2)

(4.3.3)

4.3.2. RISC processzorok kiszorulása (1)

4.6. ábra: RISC processzorok kiszorulása

1995-2000: A CISC processzorok átvették a vezetést a teljesítmény versenyben, mivel magasabb órafrekvenciáról indulva (RISC) nem volt tartható az azonos iramú frekvencia növelés, mint alacsonyabb frekvencia értékről (CISC)

A legtöbb RISC processzorcsalád fejlesztésének leállítása, mint pl. MIPS R családja, HP Alpha és PA

családjai, illetve a PowerPC Consortium PowerPC családja

4.3.2. RISC processzorok kiszorulása (2)

1997: Intel és HP bejelentették az IA-64/Merced architektúrát/processzorcsaládot, mint a jövendő új generációt

4.3.3. Fejlődési korlátok megjelenése (1)

Párhuzamos buszok frekvenciakorlátja

Disszipációs korlát

Hatékonysági korlát

(5. pont)

(6. pont)

(7. pont)

4.3.3. Fejlődési korlátok megjelenése (2)

Párhuzamos buszok frekvenciakorlátja

Disszipációs korlát

Hatékonysági korlát

(5. pont)

(6. pont)

(7. pont)

Többmagos processzorok

Disszipáció csökkentéselőtérbe kerülése

Sorosbuszok

A processzor és a memória közötti sebességolló

5.1. Áttekintés

5. A Hatékonysági korlát

Alapvető ok:

(növekvő órafrekvenciákon tágul)

Memória átviteli rátája

DRAM késleltetési ideje

A processzor busz átviteli rátája

L2 cache tárak elérési ideje

5.1. Áttekintés (2)

A sebességolló konkrét megnyilvánulásai:

5.1 Áttelomtás (3)

The scene of main memories

1 Used in the Cell BE and the PlayStation 3, but not yet in desktops or servers

Ábra: Legfontosabb DRAM típusok

DRAM

(1970)

FBDIMM

(2006)

DRDRAM

(1999)

DDR3

(2007)

DDR2

(2004)

DDR

(2000)

SDRAM

(1996)

FPM

(1983)

FP

(~1974)

XDR

(2006)1Year

of intro.

Asynchronous DRAMs Synchronous DRAMs

DRAMs with parallel bus connection

DRAMs with serial bus connection

DRAMs for general use

Main stream DRAM types Challenging DRAM types

EDO

(1995)

Commodity DRAMs

486 DX P PII PIII386 DX

86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99

200

180

160

140

120

100

80

60

40

20

2000

*

PC AT

*

*

* *

**

**

*

*

16 K 64 K 256 K 256 K 64 M

Year

processor

Chipset

Typ. DRAMparts (bits)

(ns)

FPM

4 M

1 M 1 M 16 M 128 M

64 M

16 M

64 M

256 M

200

150

100

80

80

60

70

5060

50

35

EDOFPM

EDOSDRAM

RDRAMSDRAM

64 K

01 02 03 04 05 06 07

DRAM FPM

DRAMDRAM DRAM

64 K

P4

64 M

128 M

256 M

SDRAM

Core2

512 M

1 G

2 G

DDR2

*****

*

30

3025

40

24 22

128 K 128 K

256 K

256 M

512 M

1 G

DDR DDRDDR2

DDR3DDR2

40*

Desktop

DRAM type

Readlatency1

1 Read latency of DRAM, FPM, EDO and BEDO parts = tRAC (Row access time (time from row address until data valid)) Read latency of SDRAM parts = CL + tRCD (Cslumn delay + Row to Cloumn delay)

2 The 815 chipset support SDRAM while the 820 RDRAM

512 M

1 G

935865915845

256 M

512 M

1 G

8453

512 M

RDRAM

128 M

256 M

8152

8202

850

EDOFPM

SDRAM

4 M256 K

FPM

1 M

440ZX430VX430FX420TX 430LX

3 A new revision of the 845 supports DDR instead of SDRAM

DRAM FPM

16 M

4 M

5.2. A processzor és a memória közötti sebességolló (2)

5.1b ábra: DRAM chipek késleltetési ideje

5.1c ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ns)

486 DX P PPro PII PIII386 DXPC AT(286)(8088)

P4

Memory latencyns

300

200

100

*

*

* **

155135 140

120

210

*200

86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99 2000 Year01 02 03 04 05 06 07 08

*160

*110

*85

*70

50

Core2processorChipset

Typ. DRAMparts (bits)

Desktop

DRAM type

16 K

DRAM

64 K 64 K

DRAMDRAM

64 K

128 K 128 K

256 K

256 K

1 M

DRAM FPM

DRAM FPM

256 K

FPM

4 M

1 M

256 K

FPM

1 M

420TX 430LX

16 M

64 M

EDOFPM

EDOFPM

SDRAM

4 M

430VX430FX

16 M

4 M 64 M

128 M

16 M

64 M

256 M

EDOSDRAM

RDRAMSDRAM

64 M

128 M

256 M

SDRAM DDR

845

256 M

512 M

1 G

8453

512 M

RDRAM

128 M

256 M

8152

8202

850440ZX

512 M

1 G

2 G

DDR2

256 M

512 M

1 G

DDRDDR2

DDR3DDR2

512 M

1 G

835865915

RDRAM

5.2. A processzor és a memória közötti sebességolló (3)

486 DX P PPro PII PIII386 DXPC AT(286)(8088)

P4 Core2processor

Chipset

Typ. DRAMparts (bits)

Desktop

DRAM type

16 K

DRAM

64 K 64 K

DRAMDRAM

64 K

128 K 128 K

256 K

256 K

1 M

DRAM FPM

DRAM FPM

256 K

FPM

4 M

1 M

256 K

FPM

1 M

420TX 430LX

16 M

64 M

EDOFPM

EDOFPM

SDRAM

4 M

430VX430FX

16 M

4 M 64 M

128 M

16 M

64 M

256 M

EDOSDRAM

RDRAMSDRAM

64 M

128 M

256 M

SDRAM DDR

845

256 M

512 M

1 G

8453

512 M

RDRAM

128 M

256 M

8152

8202

850440ZX

512 M

1 G

2 G

DDR2

256 M

512 M

1 G

DDRDDR2

DDR3DDR2

512 M

1 G

835865915

Memory latencyin proc. cycles

86 8881 82 83 84 85 87 89 1990 91 92 93 94 95 96 97 98 99

100

10

12000 Year

50

1000

3020

500

200

23

5

*

*

*

10

40

85

300

**

*

1 1

3

01 02 03 04 05 06 07 08

* **

*240 220 280

180RDRAM

5.1d ábra: DRAM memóriák tipikus késleletetési ideje x86-os rendszerekben (ciklusokban)

5.2. A processzor és a memória közötti sebességolló (4)

5.2. ábra: Memóriák relatív átviteli rátája (D: kétcsatornás)

0.20

0.40

0.30

1.0 2.0fc

1.5 2.50.5

0.10

**

*

**

*

*

*

*

*

***

*

3.0 3.5

*

*

*

**

4.0

Tmemory/f c

*

*

*

**

**

*

*

*

** *

*

**

*

0.60

0.50

0.80

0.70

1.00

0.90

Pentium

Pentium Pro

Pentium II

Pentium III Pentium 4

PC-66

PC-100

PC-133

DDR 266

PC-800D

DDR 333

DDR 333D

**

*

*****

*

DDR 400

DDR 400D

DDR 533D

*

*

*

*

*

*

*

*

FPM

EDO

(GHz)

5.2. A processzor és a memória közötti sebességolló (5)

5.4. ábra: A processzor busz relatív átviteli rátája

5.2. A processzor és a memória közötti sebességolló (7)

0.20

0.40

0.30

1.0 2.0fc

1.5 2.50.5

0.10

*

*

*

*

*

*

*

**

**

**

*

3.0 3.5

**

*

*

*

4.0

Tpb/f c

*

**

*

*

*

*

**

*

*

*

*

*

**

*

0.60

0.50

0.80

0.70

1.00

0.90

Pentium

Pentium Pro

Pentium II

Pentium III

Pentium 4

66

100

133 400 533

8001066

(GHz)

fc max at intro.

(GHz)L2 size(Kbyte)

L2 latency(clock cycles)

Willamette 1.5 128 7

Northwood 2.0 512 16

Prescott 3.4 1024 23

5.3. ábra: Intel Pentium 4 L2 cache tárak elérési ideje

5.2. A processzor és a memória közötti sebességolló (6)

5.3. A 3. generációs szuperskalárok hatékonysága (1)

5.5. ábra: Intel Pentium III és Pentium 4 processzorainak hatékonysága fixpontos feldolgozás esetén

0.40

0.5

0.45

1.0 2.0fc

1.5 2.50.5

0.35

0.30

**

*

*

*

*

**

*

*

*

*

*

**

*

*

****

0.55

3.0 3.5

***

**

*

*

**

*

**

*

*

4.0

Katmai512K dir L2

Coppermine256K on-die L2

Willamette256K on-die L2

Northwood A512K on-die L2

Prescott (1M)1M on-die L2

Prescott (2M)2M on-die L2

Irwindale512K on-die L2

2M on-die L3

800 MHz/PC-3200/SATA-150/HT800 MHz/PC-3200/ATA-100

100 MHzPC-100

SCSI-U2W

100 MHzPC-100

ATA-100

100 MHzPC-133

ATA-100

400 MHzPC-800 RDRAM

ATA-66

400 MHzPC-800 RDRAM

ATA-66

800 MHzPC-4300

SATA-150

Pentium 4Pentium III

SPECint_base2000/f c

Northwood C512K on-die L2

~~

800 MHz/PC-3200/ATA-100

533 MHzPC-800 RDRAM

ATA-100

800 MHzPC-3200

SATA-150HT

**

*

800 MHz/PC-2667/ATA-100

Northwood B512K on-die L2

* *

(GHz)

5.6. ábra: AMD Athlon, Athlon XP és Athlon 64 processzorainak hatékonysága fixpontos feldolgozás esetén

0.40

0.50

0.45

1.5 2.5fc

2.0 3.01.0

0.35

0.30

* *

*

*

*

**

*

*

**

* *

*

**

*

*

0.65

3.5

**

*Palomino

256K on-die L2

Clawhammer1M on-die L2

Thorougbread256K on-die L2

200 MHzPC-100

ATA-66200 MHzPC-100

ATA-66

200 MHzPC-133

ATA-66

200 MHzPC-133

ATA-66

266 MHzPC-2100

ATA-100

266 MHzPC-2100

ATA-100

333 MHz/PC-2700/ATA-100

Athlon-XP

Athlon

SPECint_base2000/f c

0.5

Barton512K on-die L2

Thunderbird256K on-die L2

400 MHz/PC-3200/ATA-100

PC-3200ATA-133

f =fFSBmemory

K7512K dir L21

K75512K dir L22,3

1 f =0.5*fL2 c 2 f =0.4*f

L2 c (f =750/800/850 MHz)c3 f =0.3*f

L2 c (f =900/950/1000 MHz)c

Athlon 64

~~

0.60

~~

4.0(GHz)

5.3. A 3. generációs szuperskalárok hatékonysága (2)

5.7. ábra: A fejlett szuperskalárok hatékonyságát megszabó legfontosabb tényezők

fc

Core efficiency

Decreasing core efficiencydue to broadening Increasing core efficiency

primarily due to enhancing thememory subsystem(memory, FSB, L2)

(GHz)

the memory gap

5.3. A 3. generációs szuperskalárok hatékonysága (3)

5.8. ábra: Intel és AMD processzorok hatékonyságának összehasonlítása

0.40

0.50

0.45

1.0 2.0fc

1.5 2.50.5

0.35

0.30

**

*

*

*

*

**

*

*

*

*

*

**

*

*

****

3.0 3.5

***

**

4.0

512K/100

256K/100

256K/400

512K/400

1M/800

2M/800

SPECint_base2000/f c

512K/800

~~

**

*

512K/533

* *

**256K/200

* *

**

*

**512K/200

*

*

**

**

*

256K/266

*

*

512K/400

512K/333

0.65

0.60

***

1M/fFSB

1000

0.55

1200 1400 1600 1800

Pentium III

Pentium IV

Athlon

Athlon XP

Athlon 64

(GHz)

5.3. A 3. generációs szuperskalárok hatékonysága (4)

5.9. ábra: Intel és AMD processzorok tervezési filozófiájának összehasonlítása

0.40

0.50

0.45

0.35

**

*

*

*

*

**

*

*

*

*

*

**

*

*

****

***

**

512K/100

256K/100

256K/400

512K/400

1M/800

2M/800

SPECint_base2000/f c

512K/800

~~

**

*

512K/533

* *

**

256K/200

* *

**

*

**512K/200

*

*

**

**

*

256K/266

*

*

512K/400

512K/333

0.65

0.60

***

1M/fFSB

1000

0.55

1200 1400 1600 1800

Designs preferringcore efficiency

Designs preferring clock frequency

1.0 2.0fc

1.5 2.50.5 3.0 3.5 4.0(GHz)

0.75

0.70

0.80

*2M/400

Pentium III

Pentium IV

Athlon

Athlon XP

Athlon 64

Pentium M

5.3. A 3. generációs szuperskalárok hatékonysága (5)

Növekvő órafrekvenciákon egyre csökkenő teljesítménytöbblet

A processzorok hatékonysági korlátjának konzekvenciája:

5.3. A 3. generációs szuperskalárok hatékonysága (6)

6. A disszipációs korlát (1)

Disszipáció (D) :

Dd=A*C*V2*fc

ahol:A: aktív kapuk részaránya

C: a kapuk összesített kapacitása

V: tápfeszültség

fc: órafrekvencia

Ileak: szivárgási áram

Dinamikus Statikus

Ds=V*Ileak

6. A disszipációs korlát (1b)

A tápfeszűltség skálázása a gyártási technológiával

Forrás: Gelsinger P. IDF, June 7 2006

6.2. ábra: Intel processzorok fajlagos disszipációja

5

10

50

100

20

2

100 1000 5000

*

*

*

*

**

****

*

*

*

*

**

*

*

* **

*

*

*

Prescott

Northwood

Willamette

Tualatin

Coppermine

Katmai

Deshutes

Klamath

P6

P54CS

P54C

P5

*

(W/cm )2

fc2000200 50020 50

D/die area

0.8μ 0.6μ

0.6μ

0.35μ

0.35μ

0.35μ

0.25μ

0.25μ

0.18μ

0.18μ

0.13μ0.13μ

0.09μ

(MHz)

6. A disszipációs korlát (2)

6. A disszipációs korlát (2b)

A disszipáció növekedés problémájának felismerése (ISSCC 2001, Gelsinger P. Intel)

6.3. ábra: Intel és AMD processzorok

0.40

0.50

0.45

0.35

**

*

*

*

*

**

*

*

*

*

*

**

*

*

****

***

**

512K/100

256K/100

256K/400

512K/400

1M/800

2M/800

SPECint_base2000/f c

512K/800

~~

**

*

512K/533

* *

**

256K/200

* *

**

*

**512K/200

*

*

**

**

*

256K/266

*

*

512K/400

512K/333

0.65

0.60

***

1M/fFSB

0.55

Thermal

wall

Core design,

technology

1.0 2.0fc

1.5 2.50.5 3.0 3.5 4.0 ~~(GHz)

1000 1200 1400 1600 18000.80

*2M/400

0.75

0.70

Pentium III

Pentium IV

Athlon

Athlon XP

Athlon 64

Pentium M

6. A disszipációs korlát (3)

11/00 1/02

^

0.18 /42 mtrs

^

400 MHz FSB

Northwood-A

Xeon DP line

Desktop-line

Celeron-line

Willamette

1.4/1.5 GHz

(Value PC-s)

On-die 256K L2

0.13 /55 mtrs

400 MHz FSB

2A/2.2 GHzOn-die 512K L2

2/02

^

0.13 /55 mtrs

400 MHz FSB

1.8/2/2.2 GHz

On-die 512K L2

5/01

^

0.18 /42 mtrs

400 MHz FSB

1.4/1.5/1.7 GHz

On-die 256 K L2

11/02

^Prestonia-B

0.13 /55 mtrs

533 MHz FSB

2/2.4/2.6/2.8 GHz

On-die 512K L2

Foster Prestonia-A Nocona

2/04

^

0.09 /125mtrs

800 MHz FSB

2.80E/3E/3.20E/3.40E GHzOn-die 1M L2

2000 2001 2002 2003 2004

Xeon - MP line

3/02

^

0.18 /108 mtrs

400 MHz FSB

1.4/1.5/1.6 GHz

On-die 256K L2

11/02

^Gallatin

0.13 /178 mtrs

400 MHz FSB

1.5/1.9/2 GHz

On-die 512K L2

Foster-MP

On-die 512K/1M L3 On-die 1M/2M L3

5/02

^Northwood-B

0.13 /55 mtrs

533 MHz FSB

2.26/2.40B/2.53 GHzOn-die 512K L2

5/02^

Willamette-128

400 MHz FSB

1.7 GHz

11/02

^

6/04

^

0.09 / 125 mtrs

800 MHz FSB

2.8/3.0/3.2/3.4/3.6 GHz

On-die 1M L2

Northwood-B

533 MHz FSB

3.06 GHzOn-die 512K L2

0.13 /55 mtrs

400 MHz FSB

2 GHzOn-die 128K L2

0.18 0.13

9/02

^Northwood-128

On-die 128K L2

Cores supporting hyperthreading

5/03

^Northwood-C

800 MHz FSB

2.40C/2.60C/2.80C GHzOn-die 512K L2

0.13 /55 mtrs

Cores with EM64T implemented but not enabled

2005

2Q/05

^Potomac

0.09 > 3.5 MHz

On-die 1M L2On-die 8M L3 (?)

Irwindale-C

1Q/05

^

0.09 3.0/3.2/3.4/3.6 GHz

On-die 512K L2, 2M L3

Jayhawk

2Q/05

^

0.09

(Cancelled 5/04)

3.8 GHz

On-die 1M L2

3Q/05

^Tejas

0.09 /4.0/4.2 GHz

On-die 1M L2(Cancelled 5/04)

Irwindale-A

11/03

^

800 MHz FSB

3.2EE GHz

On-die 512K L2, 2M L3

0.13 /178 mtrs

Cores supporting EM64T

6/04

^

0.09 /125mtrs

800 MHz FSB

2.8/3.0/3.2/3.4/3.6 GHz

On-die 1M L2

11/04

^Irwindale-B

0.13 /178mtrs

1066 MHz FSB

3.4EE GHzOn-die 512K L2, 2 MB L3

533 MHz FSB

2.4/2.53/2.66/2.8 GHzOn-die 256K L2

0.09

6/04

^Celeron-D

PGA 603 PGA 603

PGA 603 PGA 604

PGA 478 LGA 775

PGA 423 PGA 478 PGA 478 PGA 478 PGA 478 PGA 478 LGA 775

PGA 478 PGA 478

PGA 603 PGA 603

0.18 /42 mtrs

^

400 MHz FSB

Willamette

On-die 256K L2

PGA 478

3/04

^Gallatin

0.13 /286 mtrs

400 MHz FSB

2.2/2.7/3.0 GHz

On-die 512K L2On-die 2M/4M L3

PGA 603

8/01

PGA 478533 MHz FSB

2.53/2.66/2.80/2.93 GHzOn-die 256K L2

0.09

9/04

^Celeron-D

Extreme Edition

7/03

^Prestonia-C

0.13 /178 mtrs

533 MHz FSB

3.06 GHz

On-die 512K L2, 1M L3

PGA 603

1.4 ... 2.0 GHz0.09 /125mtrs

800 MHz FSB

3.20F/3.40F/3.60F GHz

On-die 1M L2

LGA 775

8/04

^

12 13

8,9,10PrescottPrescott Prescott-F115 6,7

LGA 775

42,3

1 1

6.4. ábra: Intel P4 processzorcsaládja (Netburst architektúra)

6. A disszipációs korlát (4)

6.5. ábra: A fajlagos disszipáció értékének növekedése (általában)

Forrás: R Hetherington, „The UltraSPARC T1 Processor” White Paper, Sun Inc., 2005

6. A disszipációs korlát (5)

6.1 ábra: A dinamikus és a statikus disszipáció növekedési trendje

Forrás: N. S. Kim et al., „Leakage Current: Moore’s Law Meets Static Power”, Computer, Dec. 2003, pp. 68-75.

6. A disszipációs korlát (6)

Kapcsolási sebesség: 120 %Szivárgási áram: 10 %

6. A disszipációs korlát (7)

6.6. ábra: A Penryn processzor tranzisztorainak felépítése (1)

Source:[5]

6. A disszipációs korlát (8)

6.7. ábra: A Penryn processzor tranzisztorainak felépítése (2)

A processzorok tervezésében a disszipáció csökkentő technikák előtérbe kerülése

Az órafrekvencia növelésén alapuló fejlesztési irány háttérbe szorulása

A disszipációs korlát konzekvenciái:

6. A disszipációs korlát (9)

6.8 ábra: Intel 2006-ban nyilvánosságra hozott utiterve, mely megadta a gyártási technológiák fejlesztési ütemét és a tervezett új processzor architektúrák

kibocsátásának idejét [74]

6. A disszipációs korlát (10)

Intel processzor tervezési filozófiájának változása

http://citris-uc.org/files/koomeyoncomputingtrends-v2.pdf

6. A disszipációs korlát (11)

A számítási hatékonyság növekedése

http://citris-uc.org/files/koomeyoncomputingtrends-v2.pdf

6. A disszipációs korlát (12)

A számítási hatékonyság növekedése (PC-k)

Az adatbeolvasás mechanizmusa a buszok vevőoldalán

Az időbeli feltételeket az adat érvényes ablak (Data Valid Window, DVW) írja le,a feszültségszint feltételeket egy minimálisan elvárt H szint (VHmin) és egy maximálisan lehetséges L szint (VLmax) definiálja.

Forbidden V area

t

V

VLmax

VHmin

DVW

VL

Data

VH

DVW: Min. idő, amig a jelnek érvényesnek kell lennie

Óra (adat bekapuzáshoz)

7. Párhuzamos buszok frekvenciakorlátja (1)

• A vevő az órajellel vezérelten bekapuzza az adat jelet.• Az adat helyes bekapuzásának időbeli és feszültségszint feltételei vannak.

A DVW az a minimális időintervallum, melyben az adat-jelnek (mely vagy H vagy L szintű) érvényesnek kell maradnia

7.1 Ábra: Az adat érvényes ablak (DVW) értelmezése ideális jel esetén

Data

CK

tS

tH

Min. DVW

7. Párhuzamos buszok frekvenciakorlátja (2)

ts: setup timetH: hold time

• egyrészt az adat-jelnek már kellő időben az órajel jel megérkezése előtt (tS) érvényesnek kell lennie és

• másrészt pedig az adat-jelnek az órajelet követően még egy előírt ideig (tH) érvényesnek kell maradnia

annak érdekében, hogy a vevőáramkör az adat-bitet helyesen kapuzza be.

Az adat érvényes ablak (DVW) értelmezése

DVW

min

max

7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával

• nagyszámú H szintű illetve L szintű adatjel egymásra irásával előállított kép. •Az elvárt adat-beolvasási követelmények teljesülésének az ellenőrzésére szolgál.

7. Párhuzamos buszok frekvenciakorlátja (3)

A szem diagram (Eye diagram)

DVW

Elektromos jelenségek, elsődlegesen a

behatárolják a buszok adatátviteli sebességét.

7. Párhuzamos buszok frekvenciakorlátja (4)

Az adatbeolvasás tolerancia sávjait csökkentő (zavaró) elektromos jelenségek

• skew• vonal lezárási illesztettlenségek miatt fellépő jel-visszaverődések (reflections)• jitter

csökkentik az adat-beolvasás tolerancia sávjait, és ezáltal

7.3 Ábra: Egy chip vagy egy NYÁK különböző pontjain ható órajel élei között megjelenő futási idő különbségek (skew)

A jelek fel- illetve lefutó élei közötti időkülönbség, mely kétféleképpen értelmezhető.

a) A skew értelmezése egyazon jelre (pl. egy adott órajelre) mely egy chip vagy egy NYÁK különböző pontjain hat.

7. Párhuzamos buszok frekvenciakorlátja (5)

Skew (általában)

7.4. ábra: Párhuzamos buszok bit-vezetékei között megjelenő futási idő különbségek (skew)

63. bit

0. bit

Skew

7. Párhuzamos buszok frekvenciakorlátja (6)

b) A skew értelmezése egy párhuzamos busz különböző bit-vezetékei között, egy adott helyen.

A párhuzamos buszok egyes bitvezetékei között megjelenő skew előidéző okai (elsődlegesen)

7. Párhuzamos buszok frekvenciakorlátja (7)

a) Párhuzamos buszok egyes bit-vezetékeinek eltérő hosszai NYÁK lapokon.

Adott jelterjedési sebesség (time of flight) mellett, melynek értéke kb. 170 ps/inch) [8], ill. kb. 60 ps/cm, a hosszeltérések él-eltolódásokhoz vezetnek.

A hossz-különbségeket a tervezők NYÁK lapokon (pl. alaplapokon) bizonyos mértékben kiegyenlítik.

7.5. ábra: A futási idő különbségek (skew) kiegyenlítése az MSI 915 G Combo alaplapon

7. Párhuzamos buszok frekvenciakorlátja (8)

Ábra: Jelvezetékek kapacitív terhelése miatt fellépő skew [8]

CK-1

CK-2

Skew

7. Párhuzamos buszok frekvenciakorlátja (9)

b) NYÁK vezetékek kapacitív terhelése miatt fellépő skew (kb. 50 ps per pF).

A GHz tartományban a NYÁK-okon (pl. az alaplapokon) kialakított rézvezetékek tápvezetékként működnek (transmission lines).

7. Párhuzamos buszok frekvenciakorlátja (10)

Visszaverődések (reflections)

Annak érdekében, hogy a tápvezetékeken ne álljanak elő visszaverődések a tápvezetékeket a hullám impedanciájukkal (charactristic impedance) (Z0) kell lezárni, mely kb. 50-70 Ω alaplapon illetve DIMM kártyán kialakított rézvezetékek esetén.

Ha tápvonalat nem a hullám impedanciájával zárjuk le vagy a tápvonalon inhomogenitások vannak, visszaverődések keletkeznek, melyek csőkkentik az adat-beolvasásnál rendelkezésre álló tolerancia sávokat.

Z0

7.6 Ábra: Egy szem diagramon látható visszaverődések, melyek a tápvonal lezárás illesztetlensége miatt keletkeztek

7. Párhuzamos buszok frekvenciakorlátja (11)

Példa visszaverődésekre

Memória vezérlő (MCH)

DIMM kártyák

Alaplapon kiképzett vezetékek

7.7 Ábra: A memória vezérlőt és a DIMM kártyákon elhelyezett DRAM chipeket összekötővezetékeken fellépő inhomogenitások ([6] alapján)

Az adatút egyespontjain

inhomogenitásokjelentkeznek.

7. Párhuzamos buszok frekvenciakorlátja (12)

Példa inhomogenitásokra a mem. vezérlőt és a DRAM chipeket összekötő adatút esetén

• Jelentése: fázisbizonytalanság, mely a jelek felfutó és lefutó éleit elmossa.

7.8 Ábra: Jelek felfutó illetve lefutó élein jelentkező jitter

A jitter főbb forrásai

• Áthallás (crosstalk), melyet a szomszédos vezetékek közötti csatolás okoz a NYÁK-on,

• ISI (Inter-Symbol Interference) akkor áll elő, ha busz magasabb frekvencián működik minthogy azon a jelek le tudnának csengeni,

• EMI (Electromagnetic Interference) melyet külső vagy belső forrásokból származó elektromágneses sugárzás okoz.

7. Párhuzamos buszok frekvenciakorlátja (13)

Jitter (fázis bizonytalanság)

A jitter leszűkíti az adatok beolvasásánál rendelkezésre álló tolerancia sávokat mind a DVW, mind a jelszintek tekintetében.

• A jitter sztohasztikus jellegű.

• A vevő oldalon csökkentik a jelek beolvasásának tolerancia sávjait.

7. Párhuzamos buszok frekvenciakorlátja (14)

A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-1

7.2 Ábra: Egy valós adat-jel szem diagramja az elvárt adat érvényes ablak és az elvárt jelszintek (VIHmin, VILmax) megadásával

DVW

min

max

DVW

• Ez bekorlátozza a párhuzamos buszok átviteli sebességét.

7. Párhuzamos buszok frekvenciakorlátja (15)

A fellépő elektromos zavaró jelenségek (skew, visszaverődések, jitter, stb.) következményei-2

• A tárgyalt elektromos zavaró jelenségek egyúttal bekorlátozzák az egy memória csatornára csatlakoztatható DIMM-ek számát is. Pl. hagyományos rendszerarchitektúrákban, melyekben a memória csatornák az MCH-ra (északi híd) csatlakoznak, DDR2 vagy DDR3 memóriák esetén két DIMM-re.

Soros buszok használata

7.9. ábra: Jelátvitel soros buszon

D+

D-

"0" "1"

7. Párhuzamos buszok frekvenciakorlátja (16)

Párhuzamos buszok frekvenciakorlátja által kiváltott trend:

Példák “gyors” soros buszokra:

• PCI-e• SATA• SAS• HT (HyperTransport bus)• QPI (Quick Path Interconnect bus)

Soros buszok bevezetése lassú periféria buszok esetén is (költségokokból!):

• USB• USB2

7. Párhuzamos buszok frekvenciakorlátja (17)

Forrás: Vogt, IDF Spring 2004

7. Párhuzamos buszok frekvenciakorlátja (18)

A soros buszok használata nagyban leegyszerűsíti az alaplapok tervezését is

7.10 Ábra: Vezeték összeköttetések alaplapon párhuzamos és soros memória busz esetén

Az órafrekvenciák növelésén alapuló fejlődési főirányhatékonysági, disszipációs és skew korlátokba ütközik

és tovább már nem követhető

A fejlődési korlátok felerősödésének konzekvenciája

Az órafrekvencia erőteljes növelése

EPIC architektúrák kifejlesztése

effca IPCfP

A fejlődés fővonala

(4. – 7. pontok)

8. EPIC architektúrák/processzorok (1)

(8. pont)

Szuperskalár feldolgozás elve

FE

FE

FE

dinamikusfüggőség kezelés

Processzor

függő utasítások

utasítások

VLIW feldolgozás elve

FE

FE

FE

VLIW: Very Large Instruction Word

független utasítások(statikus függőségkezelés)

Processzor

8.1. ábra: VLIW processzorok működési elve

8. EPIC architektúrák/processzorok (2)

1994: Intel, HP

2001: IA-64 Itanium

1997:EPIC elnevezés

VLIW EPIC

EPIC: Explicitly Parallel Instruction Computer

Továbbfejlesztett VLIW

• elágazásbecslés• explicit cache utasítások• •

8. EPIC architektúrák/processzorok (3)

(fejlett szuperskalár vonások integrálása)

5/01 6/03

^^Itanium 2Itanium

4/04

^Itanium 2

11/04

^Itanium 2

7/05

^Itanium 2

2001 2002 2003 2004 2005

^Itanium 2

7/02

0.18 /25 mtrs

64-bit FSB

733/800 MHz96K L2

266 MT/s

2/4M L3

0.18 /220 mtrs

128-bit FSB

800/1000 MHz256K L2

400 MT/s

1,5/3M L3

0.13 /410 mtrs

128-bit FSB

1.5 GHz256K L2

400 MT/s

6M L3

0.13 /410 mtrs

128-bit FSB

1.4/1.6 GHz256K L2

400 MT/s

3M L3

0.13 /592 mtrs

128-bit FSB

1.5/1.6 GHz256K L2

400 MT/s

3/4/6/9M L3128-bit FSB

1.66 GHz256K L2

667 MT/s

6/9M L3

9/03

^Itanium 2

(Merced) (Mc Kinley) (Madison)(Madison)

1

11

2

21.5 GHz with 4 MB L3

1.6 GHz with 3/6/9 MB L3

400 MT/s for 4/6/9 MB L3 GHz with 4 MB L3400/533 MT/s for 3 MB L3

Multiprocessor(MP-line)

Dual processor(DP-line)

0.13 /410 mtrs

128-bit FSB

1.4 GHz256K L2

400 MT/s

1.5M L3

(Madison)

Year

(Madison) (Madison)

8.2. ábra: Itanium alapú magok áttekintése

8. EPIC architektúrák/processzorok (4)

Tukwila (2/2010)

0.5

0.7

0.6

1000 2000fc

1500500

0.4*

*

0.9

0.8

1.0

Itanium

Itanium 2

64-bit FSB/266 MT/s

*

**

*

*

*

(MHz)~~~~

SPECint_base2000/f c

128-bit FSB/400 MT/s

96K L2/4M dir. L3

96K L2/2M dir. L3

256K L2/9M L3/DDR 266256K L2/6M L3/DDR 266

256K L2/3M L3/DDR 266

8.3. ábra: Itanium processzorok hatékonysága

8. EPIC architektúrák/processzorok (5)

8.4. ábra: Az IA-64 architektúra elterjedésével kapcsolatos várakozások

Forrás: L. Gwennap: Intel’s Itanium and IA-64: Technology and Market Forecast, MDR, 2000

8. EPIC architektúrák/processzorok (6)

8.5. ábra: Az Itanium processzorok értékesítési elvárásainak módosulása

8. EPIC architektúrák/processzorok (7)

Általános célú alkalmazásokbanaz EPIC architektúrák/processzorok

kiszorulása

8. EPIC architektúrák/processzorok (8)

Általános célú alkalmazásokban a 2. generációs szuperskalárok megjelenésével a processzorok hatékonysága stagnálni kezdett,

ez két fejlesztési főirányt váltott ki, de mindkét megközelítés korlátokba ütközött

Egymagos szuperskalárok-

egy korszak alkonya

9. Paradigmaváltás (1)

Paradigmaváltás a processzorok fejlesztésébenA többmagos (többszálas) processzorok

korszakába léptunk

9. Paradigmaváltás (2)

A magok várható duplázódási ideje is közelítőleg ~ 24 hónap

A rendelkezésre álló hardver komplexitás továbbra is exponenciálisan nő

(Moore törvénye)

Jelenleg a tranzisztorszám ~ 24 havonta duplázódik

9.1. ábra:Többmagos processzorok robbanásszerű elterjedése az Intel processzorok példáján

9. Paradigmaváltás (3)

Further slides

[74]: Razin A., Core, Nehalem, Gesher. Intel: New Architecture Every Two Years, Xbit Laboratories, 04/28/2006, http://www.xbitlabs.com/news/cpu/display/20060428162855.html

1.2. A processzor teljesítmények növekedése (2)

1.3. ábra: A fixpontos teljesítmények növekedése (általában - 1)

Forrás: X86-64 Technology White Paper, AMD Inc., Sunnyvale, CA, 2000

top related