第四章 中央处理器 CPU
介绍 CPU的:
发展和现状 性能指标
新技术应用 接口封装
计
算
机
硬
件
技
术
基
础
第 2 页
计
算
机
硬
件
技
术
基
础
第四章 微型机的中央处理器 CPU
4.1 CPU概述
4.2 CPU的主要技术参数
4.3 微处理器中所采用的新技术
4.4 单指令多数据流技术
4.5 CPU的封装与接口类型
4.6 典型 CPU介绍
作业,1,2,3,4,5,9
名词解释:流水线, 超标量, 超线程, 直接映像 Cache、
全相联 Cache,MMX,SIMD,饱和运算, 3D NOW!、
NetBurst。
第 3 页
计
算
机
硬
件
技
术
基
础
4.1 CPU概述
分代 Intel CPU 其他 CPU开始年代
第一代
第二代
第三代
第四代
第五代
第六代
第七代
8086/8088
80286
80386 DX/SX
80486
SX/DX/DX2/DX4
Pentium
Pentium MMX
Pentium Pro
Pentium II Celeron
Pentium III
Pentium 4
Pentium D/EE
1978
1984
1987
1990
1993
1996
2000
AMD K5
Cyrix 6X86/6x86MX
IDT WinChip C6
WinChip2 3D
AMD K6
AMD K6-2
AMD K6-3
AMD K7 (Athlon) / (64)
AMD Thunderbird
Pentium在拉丁文里面就是, 五, 的意思
第 4 页
计
算
机
硬
件
技
术
基
础
4.2 CPU的主要技术参数
4.2.1 位、字节和字长
位,CPU的最小存储单位,有,0”和,1”两种取值。
字节,CPU的最小访问单位,8位组成的。
字长,CPU一次能处理的二进制数,CPU中 ALU的处理
位数。
CPU按照其处理信息的字长可以分为,八位、十六位、三
十二位及六十四位微处理器等。
Intel x86系列 CPU
8位 8080,8085
16位 8086,80186,80286
32位 386,486,Pentium,PII,PIII,P4
64位 Itanium(安腾 ),P4 F,Pentium D/EE
第 5 页
计
算
机
硬
件
技
术
基
础
4.2.2 时钟频率
? 主频,驱动 CPU工作的周期性循环脉冲信号的频率,是
CPU内核 (整数和浮点运算器 )电路的实际运行频率。其周
期为时钟周期。多个时钟周期组成一个 机器周期,多个
机器周期组成一个 指令周期 。
?外频,CPU外频也叫 前端总线频率 或系统总线时钟频率,
是由主板为 CPU提供的基准时钟频率。
?倍频,CPU主频、倍频、外频三者的关系:
主频 =外频 × 倍频。
?超频,超频就是在实际使用中让 CPU工作在高于额定的
工作频率上。
Pentium
60~66
75~200
P II
66~100
233~450
P III
100~133
450~733
P 4
100~266
1~3.8G
CPU
外频
主频
第 6 页
计
算
机
硬
件
技
术
基
础
4.2.3 L1和 L2 Cache的容量和速率
L1和 L2 Cache的 容量 和 工作速率 对提高微机速度起
关键作用。
?L1 Cache,一般在 CPU内部,容量为几十 KB。
?L2 Cache,可在 CPU内部或外部,一般为几百 KB~几
MB。
L2 Cache对提高整数运算速度有显著作用 。
第 7 页
计
算
机
硬
件
技
术
基
础
4.2.4 工作电压
CPU 的工作电压,5V → 3.3V → 1~2V
?早期 CPU(8086- 486时代 )的工作电压一般为 5V。标
准的 TTL (Transistor- Transistor Logic)数字电路工作
电压为 5V。
?早期 Pentium CPU工作电压一般为 3V左右。这是由于:
? CPU的制造工艺提高,低电压工作可靠性有保障。
? 减小 CPU功耗,减小发热量。 CPU功耗与电源电
压的平方成正比。
? 节能。
?笔记本专用的 CPU和 Pentium4的工作电压一般为 1.2
~1.8V。
第 8 页
计
算
机
硬
件
技
术
基
础
4.2.5 地址总线宽度、数据总线宽度
? 地址总线宽度
地址总线宽度决定了 CPU可以访问的物理地址空
间,简单地说就是 CPU到底能够使用多大容量的内存。
? 8086——20位,最大存储器空间 1MB。
? 80286——24位,最大存储器空间 16MB。
? 80386——32位,最大存储器空间 4GB。
? Pentium Pro——36位,最大存储器空间 64GB。
? 数据总线宽度
数据总线负责整个系统的数据流量的大小,而数据
总线宽度则决定了 CPU与二级高速缓存、内存以及输
入 /输出设备之间一次数据传输的信息量。
? 数据总线宽度与 CPU位宽可能不一致。
? 数据总线宽度与总线位宽可能不一致。
第 9 页
计
算
机
硬
件
技
术
基
础
4.2.6 制造工艺
?半导体材料工艺 ——目前均为 CMOS工艺。
?TTL(Transistor- Transistor Logic) 晶体管逻辑
?NMOS(N-Channel MOS) N沟道金属氧化物半导体
?PMOS(P-Channel MOS) P沟道金属氧化物半导体
?CMOS(Complementary Metal Oxide Simeconductor)
互补金属氧化物半导体,CMOS工艺 IC功耗与频率成
正比,与电压的平方成正比。
?线宽 ——指芯片上的最基本功能单元的宽度,缩小线宽
可以提高集成度,Pentium CPU一般使用 0.6~0.13微米
线宽,最新技术是 0.09微米
?铜配线技术 ——以往芯片内部使用铝连线,现在普遍采
用导电特性更好的铜配线技术,可以提高 CPU的集成度
和工作频率。
第 10 页
计
算
机
硬
件
技
术
基
础
4.3 微处理器中所采用的新技术
4.3.1 流水线与超标量结构
非流水线指令的执行过程:
1) 取指令,从内存读取这条指令;
2) 译码,将指令翻译成操作命令;
3) 取操作数,从内存中读取执行该条指令所需的操作数;
4) 执行指令,CPU指定部件实际执行这条指令;
5) 回写,将执行的结果送回内存或寄存器中。
一条指令必须在前一条指令的五个步骤执行完后才能执行
下一条指令。
不一定所有指令都有五步。
取指令 FI 译码 D 取操作数 FO 执行指令 E 回写 W
第 11 页
计
算
机
硬
件
技
术
基
础
4.3.1 流水线与超标量结构
流水线 (pipeline),是 Intel首次在 486芯片中开始使用
的。流水线工作方式将不同指令的各个步骤并行化。执
行一条指令的步骤越多 (细化 ),流水线长度越长,流水
线效率越高。
影响流水线效率的另 2个因素:
? 数据相关性 ——指令的执行需要前一条指令的结果。
? 分支 ——控制转移。
指令 1
指令 2
指令 3
指令 4
指令 5
FI
1 2 3 4 5 6 7 8 9
D
FI
FO
D
FI
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
时钟
第 12 页
计
算
机
硬
件
技
术
基
础
4.3.1 流水线与超标量结构
超标量 (superscalar),在 CPU中存在多个相同的功能部
件,可以根据指令的需要动态分配功能部件,组成多条流
水线。这种设计就叫超标量技术。
采用超标量技术的 CPU集成了多个 ALU、多个 FPU、
多个译码器,以并行处理的方式来提高性能。
Pentium是 Intel系列 CPU中最早采用超标量结构的处理
器。带有 2条独立的处理管线,理想情况下每周期执行 2条
指令。
超标量处理器每个周期所使用到的执行单元 (用蓝色
表示 ),可见每个周期都有执行单元空闲 。
部件 n
部件 1
部件 2
…..
第 13 页
计
算
机
硬
件
技
术
基
础
超线程 (Hyper Threading)技术
超线程 (Hyper Threading),在单个处理器基础上提供两
个逻辑处理器,这两个逻辑处理器共享相同的物理执行单
元,而从软件的角度来看,操作系统可以象拥有两个物理
处理器那样为这两个逻辑处理器分配不同的线程。
Pentium 4共有 7个执行单元,平均只有 2~3个单元在使
用状态,在超标量结构中空闲的功能部件得到利用。
图中红色和蓝色分别为两个线程占用的
功能部件。
Pentium 4 Northwood B率先支持 HT。
Windows XP 的后期版本支持超线程。
部件 n
部件 1
部件 2
…..
第 14 页
计
算
机
硬
件
技
术
基
础
双核技术
双核 CPU,在 CPU内部
封装两个处理器内核。双核
和多核 CPU是今后 CPU的发
展方向。
intel最新的 (2005年 )双核
CPU:
Pentium D 和 Pentium
Extreme Edition。其中
Pentium D不支持超线程但
Pentium Extreme Edition支
持超线程。
第 15 页
计
算
机
硬
件
技
术
基
础
第 16 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
Cache存储器,容量较小、速度较快的静态存储器 (SRAM)
主存储器,容量较大、速度较慢的动态存储器 (DRAM)
CPU 主存储器 (DRAM)Cache(SRAM)
Cache的工作原理是基于程序访问的局部性:
1,时间局部性:如果一个存储项被访问,则可能该项会
很快被再次访问。
2,空间局部性:如果一个存储项被访问,则该项及其邻
近的项也可能很快被访问。
第 17 页
计
算
机
硬
件
技
术
基
础
命中,CPU访问存储器数据时,数据已在于 Cache 中则称
为命中。命中的概率为 命中率 。
Cache控制,命中时,只需直接访问 Cache即可。如果未命
中,需要将主存储器数据拷贝到 Cache中,再访问 Cache。
Cache比主存的容量小得多。 Cache的存储容量越大,
命中率也越高。太小会使命中率太低;过大不仅会增加成
本。
Cache命中率对系统的影响
平均存储器访问时间的公式为,Ta=HcTc+(1-Hc)Tm
其中 Hc是指命中率;
Tc是命中时 Cache访问时间;
Tm为主存访问时间。
4.3.2 高速缓存技术
第 18 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
Cache原理概要
?分块,将 Cache和主存储器都分成大小相同块,从存储
器到 Cache的调入是按块进行的。
?标签表,Cache的每一块对应一组标签信息,记录
Cache中该块存放的是主存储器的哪一块,全部的标签构
成一个表,该表的记录数等于 Cache的块总数。
?替换,未命中时,按照一个策略确定将主存储器的被访
问块复制到 Cache的哪一块。
控制位 块地址标签
控制位 块地址标签
… …
控制位 块地址标签
0
1
…
N
Cache
存储体
Cache标签表
第 19 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
Cache映像,主存储器块和 Cache
的块的对应关系。 3种映像结构:
? 直接映像 Cache,主存储器的每
个组中的第 n块对应 Cache的第
n%N个块 (%:除取余数 )。特点:简
单,效率低。
? 全相联映像 Cache,没有直接映
像的对应关系,主存储器的块可以
任意分配到 Cache的任何一个块。
特点:复杂,效率高。
? 组相联映像 Cache,直接映像和
全相联的组和,折衷方案。
Cache
主存储器
直接映像,N=4 M=8
设 Cache有 N个块,主
存储器有 M个组,每个
组中包含 N个块。
第 20 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
保持 Cache和主存储器内容的一致性
在 CPU与主存之间增加了 Cache之后,必须保证
Cache与主存的数据是一样的
CPU读
?贯穿读出式,CPU对主存的所有数据请求都首先送到
Cache,如果命中,则切断 CPU对主存的请求,并将数
据送出;不命中,则将数据请求传给主存。参看图 4.1。
?旁路读出式,CPU发出的数据请求向 Cache和主存同时
发出,由于 Cache速度更快,如果命中,则 Cache在将
数据回送给 CPU的同时,切断对主存的请求;不命中,
则 Cache不做任何动作,由 CPU直接访问主存。参看图
4.2。
第 21 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
? CPU写
?写穿式,任一从 CPU发出的写信号送到 Cache的同时,
也写入主存,以保证主存的数据能同步地更新。它的
优点是操作简单,但由于主存的慢速,降低了系统的
写速度并占用了总线的时间。
?回写式,数据一般只写到 Cache,这样有可能出现
Cache中的数据得到更新而主存中的数据不变 (数据陈
旧 )的情况。但此时可在 Cache 中设一标志地址及数据
陈旧的信息,只有当 Cache中的数据被再次更改时,
才将原更新的数据写入主存相应的单元中,然后再接
受再次更新的数据。这样保证了 Cache和主存中的数
据不致产生冲突。
第 22 页
计
算
机
硬
件
技
术
基
础
影响 Cache命中率的因素:
? Cache容量 /主存储器容量
一般考虑性能价格比的折中。采用 2级或 3级 Cache,可
以以较低的成本获得较高的命中率。
? Cache块和主存储器块的相联关系
按效率由低到高 (同时实现由简单到复杂 )排列:
直接 ——组相联 ——全相联
? 替换策略:确定替换出的 Cache块的方法
先进先出策略 (FIFO,First In First Out),是把最先调入的
Cache字块替换出去。
最近最少使用策略 (LRU,Least Recently Used),把当前近
期 Cache中使用次数最少的那块信息块替换出去。
LRU策略优于 FIFO策略,但 LRU实现复杂。
4.3.2 高速缓存技术
第 23 页
计
算
机
硬
件
技
术
基
础
4.3.3 Cache技术的实现
Cache技术:
?多级 Cache,不前大多数 CPU为两级 Cache,高端 CPU可
能为 3级 Cache。分级 Cache可以以较小的成本获得较高的
命中率。如:
Pentium III采用 32KB L1Cache+256KB全速 L2 Cache;
Itanium采用 32KB L1 + 256KB全速 L2 + 2MB L3 Cache
?数据与指令 Cache,由于数据访问和指令访问之间不存在
局部性规律,所以 L1 Cache 将数据和指令 Cache分开,有
利于提高效率。
?Cache速度,L1 Cache一般和 CPU内核同步,L2 Cache
运行速度有半速和全速两种。
第 24 页
计
算
机
硬
件
技
术
基
础
CPU L1 Cache(内部 ) L2 Cache L3 Cache
80486DX 8KB混合型 无 无
Pentium 8KB+8KB 无 无
Pentium MMX 16KB+16KB 512KB
Pentium Ⅱ 16KB+16KB 512KB半速
Celeron 16KB+16KB 无 / 128KB半速
无
无
无
Celeron Ⅱ 16KB+16KB 128KB 全速 无
Pentium Ⅲ 16KB+16KB 256KB全速 无
Pentium 4 8KB+12KB Trace Cache 256KB 无
Xeon MP 16KB+16KB 256KB全速 1MB
Itanium 16KB+16KB 256KB全速 2-4MB
4.3.3 Cache技术的实现
第 25 页
计
算
机
硬
件
技
术
基
础
4.4 单指令多数据流技术
处理器虽然只能执行单个指令序列,但能将那些指令
同时应用于多个独立的数据。我们称之为“单指令多数
据” (SIMD——Single Instruction Multiple Data)处理器。
它允许 CPU 同时对 2,4,8 个数据进行并行处理。有效地
提高了 CPU 对 视 频,音频等多媒体方面的处理速度。
SIMD的具体体现是指令集的扩充,主要包括:
? MMX——Intel Pentium MMX
侧重提高多媒体数据处理速度,定点运算。
? 3D NOW !——AMD K6-2
侧重提高 3维变换,浮点运算。
? SSE——Intel Pentium Ⅲ
增强浮点运算能力。
? SSE2, SSE3——Intel Pentium 4
第 26 页
计
算
机
硬
件
技
术
基
础
4.4.1 MMX技术
MMX(MultiMedia eXtensions)技术是单指令流、多
数据流技术在奔腾 CPU的具体实现,在 Pentium MMX开
始使用,MMX技术核心体现在如下三点:
? 4种新的数据类
? 紧缩字节类型,8个字节打包成一个 64位长的数据;
? 紧缩字类型,4个字打包成一个 64位长的数据;
? 紧缩双字类型,2个 32位的双字打包成一个 64位长
的数据;
? 四字类型:一个 64位数据 。
? 8个 64位宽的 MMX寄存器
? 57条新指令
第 27 页
计
算
机
硬
件
技
术
基
础
有 57条 MMX指令添加到 Pentium原有的指令系统中,
这些指令 新的特点包括:
? SIMD型指令,一条指令可处理多个数据。
Zi=Xi+Yi
例如:使用一条 SIMD指令完成以下运算:
X=( 7,9,16,17,13,61,18,82 )
Y=( 56,12,10,20,33,11,25,29 )
+ + + + + + + +
Z=( 63,21,26,37,46,72,43,109)
第 28 页
计
算
机
硬
件
技
术
基
础
4.4.1 MMX技术
? 积和运算,能对加法和乘法同时进行运算。
∑(Xi× Yi)
例如:使用一条 SIMD指令完成以下运算:
X3 X2 X1 X0
Y3 Y2 Y1 Y0
X3 Y3 + X2 Y2 X1 Y1 + X0 Y0
× + × × + ×
第 29 页
计
算
机
硬
件
技
术
基
础
? 饱和运算,保证
当运算结果超出最
大值时按最大值运
算,低于最小值时
按最小值运算。
饱和运算常用于
音频和视频数据处
理,可以省去常规
运算的溢出检测。
4.4.1 MMX技术
原信号波形 (无符号数 )
经过非饱和运算放大
经过饱和运算放大
第 30 页
计
算
机
硬
件
技
术
基
础
4.4.2,3D NOW!”技术
3D Now ! 是第一种 3D加速指令集,共有 21条指令,由
AMD公司开发并于 AMD K6-2 CPU首次使用。
3D Now ! 和 MMX 指令集比较:
?两者都使用基于 SIMD的处理技术
?MMX主要侧重于整数指令的加速,加速的处理对象主要
是音频、视频数据。
?3D Now ! 主要浮点指令的加速,加速的处理对象主要是
三维图形。
使用 3D Now !指令的三种途径:
? 编程时直接使用 3D Now ! 指令;
? 编程时使用 API接口程序;
? 使用 支持 3D Now ! 的图形加速卡 。
第 31 页
计
算
机
硬
件
技
术
基
础
4.4.3 SSE技术
SSE(Streaming SIMD Extension)是 Pentium Ⅲ 扩展
的第二套多媒体专用指令集。和 MMX 指令集不同,SSE
的主要作用是加速 CPU的 3D运算能力 。
它总计包括 70 条指令,
?50条 SIMD浮点指令,主要用于 3D 处理
一条指令可以同时处理 4对单精度 (32位 )浮点数。
?12 条新 MMX指令,扩充 MMX指令集
?8 条系统内存数据流传输优化指令
采用新的数据预存取技术,减少了 CPU处理连续数据流
的中间环节。
从软件实际运行效果来看 SSE比 3D Now!效果更好,
从 Direct X 6.1 开始支持 SSE。
第 32 页
计
算
机
硬
件
技
术
基
础
Intel CPU复杂数据类型处理指令的发展
FPU → MMX → SSE → SSE2 → SSE2
MMX,Pentium MMX
? 8个 64位 MMX寄存器,可为各 SSE扩展所使用
? 数据为整数,支持 2个 32位,4个 16位,8个 8位运算
SSE,Pentium III
? 8个 128位 xmm寄存器
? 支持单精度浮点
? 支持 64位 SIMD整数
SSE2,Pentium 4 Willamette
? 双精度浮点
? 128位整数
? 双精度 —单精度转换
SSE3,Pentium 4 Prescott
? 主要增强了视频解码,3D图形优化和超线程性能
第 33 页
计
算
机
硬
件
技
术
基
础
4.5 CPU的封装与接口类型
4.5.1 CPU
的封装
第 34 页
计
算
机
硬
件
技
术
基
础
4.5 CPU的封装与接口类型
Socket系列,目前 Intel CPU常见的有 Socket 370(P III 二
代 ),Socket 423(P 4),Socket 478(P 4)。
Socket 423
插座
Slot 系列,有 Slot 1(P II / P III 一代 ),Slot 2 (P4 Xeon)。
又称 SEC(Single-edgecontactCartridge)卡盒
Slot 1
插座
第 35 页
计
算
机
硬
件
技
术
基
础
LGA775,LGA(Land Grid Array)封装下的 CPU,其特征是
没有了以往的针脚,取而代之的是整齐排列的金属圆点,
CPU不再靠针脚接触来固定,而是使用一个金属扣架将
CPU压在露出来的具弹性的触须上
Pentium 4的最新型号
采用 LGA775封装。
4.5 CPU的封装与接口类型
第 36 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium
1,Pentium (奔腾 )处理器
1993年推出的第五代处理器
◇ 早期 75~120MHz使用 0.6微米制造工艺
◇ 后期 120~200MHz频率以上改用 0.35微米工艺
◇ 供电电压为 3.3V
◇ 内部含有的晶体管数 310万个
◇ 内置了 8K+8K的一级缓存
◇ 时钟频率 60/66MHz
第 37 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium II
1997年推出,采用了与 Pentium Pro相同的 32位核心结构。
增强了 MMX指令集,主频 233~450MHz,采用了 Slot1封装
标准,512K同步突发式半速 L2缓存,集成度 750万。
Pentium II的发展经历了三个阶段:
第一阶段,0.35微米工艺,核心电压 2.8V,66MHz外频,
主频有 233,266,300三种
第二阶段,0.25微米工艺,核心电压 2.0V,66MHz外频,
主频有 300,333等几种;
第三阶段,0.25微米工艺,
核心电压 2.0V,100MHz
外频下,主频有 350、
400和 450三种。
第 38 页
计
算
机
硬
件
技
术
基
础
型号 核心 总线 主频 L2 封装 线宽
(MHz) (MHz) (KB) (微米 )
=======================================================
1 Celeron Convington 66 266~300 0 Slot 1 0.25
2 Mendocino 66 300~400 128 Slot 1 0.25
3 Mendocino 66 333~366 128 370 0.25
4 Celeron II Coppermine 66 533~766 128 370 0.18
5 Celeron800Coppermine 100 800~1100 128全速 370 0.18
6 Tualatin 100 900~1.4G 256全速 370 0.13
7 Celeron 4 Willamette 400 1.7~1.8G 128全速 478 0.18
8 Northwood 400 1.4~2.8G 128全速 478 0.13
9 Prescott 533 2.4~3.2G 256全速 478 0.09
10 CeleronD Prescott 533 2.4~3.2G 256全速 775 0.09
4.6 典型 CPU介绍
Intel系列 ——Celeron 赛扬
第 39 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium III
第一代 Pentium III处理器
0.25微米工艺;
拥有 32KB L1 Cache 和 512K半速 L2 Cache;
包含 MMX指令和 Intel自己的,3D”指令 ―SSE ;
主频有 450和 500MHz两种规格;
100 MHz外频;
除了 SSE指令外,
PIII与 PII很相象,事实
上也正是如此,在运
行没有为 SSE指令优化
过的应用软件时,PIII
与 PII的速度几乎一样。
第 40 页
计
算
机
硬
件
技
术
基
础
第二代 Pentium III—Coppermine
采用 0.18微米工艺
前端总线为 133MHz;
CPU主频最高 733MHz;
内置 256KB 全速 cache
工作电压 1.65V
Socket 370封装标准
4.6 典型 CPU介绍
Intel系列 ——Pentium III
第 41 页
计
算
机
硬
件
技
术
基
础
型号 核心 封装 主频 L2 线宽 系统总线
(GHz) (KB) (微米 ) (MHz)
=====================================================
P 4 Willamette 423 1.3~1.7 256 0.18 400
P 4 Willamette 478 1.5~2.0 256 0.18 400
P 4,A” Northwood 478 1.8~2.6 512 0.13 400
P 4,B” Northwood 478 2.3~2.8 512 0.13 533 HT
P 4,C” Northwood 478 2.4~3.4 512 0.13 800 ↓
P 4,E” Prescott 478 2.8~3.4 1M 0.09 533/800
P 4,E” Prescott 775 2.8 2M 0.09 800/1066
P 4,F” Prescott 775 3.2~3.6 1~2M 0.09 800/1066
PentiumD Prescott 775 3.2~3.6 1~2M 0.09 800/1066
PentiumEE Prescott 775 3.2~3.732M L3 0.09 800/1066
4.6 典型 CPU介绍
Intel系列 ——Pentium 4
第 42 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium 4
Pentium 4 处理器是 Intel公司全新推出的 IA-32结构处
理器。采用了和以往( P6)不同的全新的 NetBurst体系
结构。 NetBurst微型结构采用了多种新技术。性能涉及
各种应用领域性能的提高。
Socket478封装的 Pentium 4 LGA775封装的 Pentium 4
第 43 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel NetBurst CPU结构特点
?超长流水线
Intel的 PIII处理器是 12层计算管线的超标量设计,而
初级 P4处理器是 20级计算管线的超标量设计,之后又增
加到 31级。
?将译码后的指令放入命令缓存
Pentium 4采用了微操作指令 (micro-operation)方式,
但与 P6体系结构不同的是,它不是在内部将可变长 x86
指令变换成固定长的 RISC指令,而是在其相当于一级缓
存的 Trace Cache(跟踪高速缓存)中存储译码后的微
码,一旦命中,无需译码操作,加快了处理速度。
?整数运算器 (ALU)的工作速度是内核的 2倍
当处理器的工作频率为 1.4GHz时,ALU实际工作频
率是 2.8GHz,1个时钟周期可以执行 2条命令。
第 44 页
计
算
机
硬
件
技
术
基
础
? 一级数据缓存容量少、速度高
一级数据缓存容量为 8KB(Pentium III的一半 )。访问
只需 2个时钟周期 (Pentium III是 3个 )。
? SSE2——强化多媒体指令
MMX和 SSE的再一次升级,称做 SSE2。
? 将原 SIMD的 64位整数运算扩充为 128位;支持 16
个 8位,8个 16位,4个 32位,2个 64位的 SIMD整数
运算;
? 将原 SIMD的 32位浮点运算扩充为 64位双精度浮点
运算。
? 400MHz前端总线
400MHz(100MHz外频 ) 的系统总线在奔腾 4处理器
和内存控制器之间提供了 3.2 GB/s的传输速度。
4.6 典型 CPU介绍
Intel NetBurst CPU结构特点
第 45 页
计
算
机
硬
件
技
术
基
础
4.6 intel Pentium CPU的发展过程
Intel Pentium 的
发展过程
Pentium
Pentium MMX
Pentium II
Pentium III
Pentium Pro
Pentium III Xeon
Pentium 4
Itanium安腾 Pentium 4 64位
Celeron
Celeron II
Celeron 4Xeon MP/DP
Pentium D/EE
8086
5~20M
地址 →24位
虚拟存储
保护模式
286
25M
地址 →32位
位宽 →32位
386
33M
486
100M
流水线、嵌入 FPU
倍频技术,Cache
Pentium
200M
超标量
64位数据线
二级 Cache
P MMX
233M 扩充 MMX指令
P II
450M
512KB L2 Cache
扩充 SSE指令
全速 L2 Cache
12级流水线
P III
733M
扩充 SSE2指令
Trace Cache
20级流水线
采用 NetBurst
400M FSB
P 4
Willamette
P 4
Northwood
533/800M FSB
支持超线程
扩充 SSE3指令
31级流水线
EDB防病毒
90nm工艺
800/1066M FSB
P 4
Prescott
64位
双核
P D
P EE
Intel 全系列 CPU的发展过程
第 47 页
计
算
机
硬
件
技
术
基
础
Pentium 4
(E)5XX
Pentium 4
(F)6XX
Pentium 4
EE Pentium D
Pentium
EE
封装 LGA775
前端总线 800 MHz 800 MHz 1066 MHz 800 MHz 800 MHz
核心 Prescott Prescott 2M Prescott 2M Dual Core Dual Core
线宽 90nm
L1 Cache 16 KB 16 KB 16 KB 2 x 16 KB 2 x 16 KB
Trace Cache 12KB micro-ops 2x12KB micro-ops
L2 Cache 1MB 2MB 2MB 2x1MB 2x1MB
EM64T None Yes Yes Yes Yes
XD-bit Yes
超线程 Yes Yes Yes No Yes
指令集 SSE,SSE2,SSE3
4.6 最新的 intel Pentium CPU
介绍 CPU的:
发展和现状 性能指标
新技术应用 接口封装
计
算
机
硬
件
技
术
基
础
第 2 页
计
算
机
硬
件
技
术
基
础
第四章 微型机的中央处理器 CPU
4.1 CPU概述
4.2 CPU的主要技术参数
4.3 微处理器中所采用的新技术
4.4 单指令多数据流技术
4.5 CPU的封装与接口类型
4.6 典型 CPU介绍
作业,1,2,3,4,5,9
名词解释:流水线, 超标量, 超线程, 直接映像 Cache、
全相联 Cache,MMX,SIMD,饱和运算, 3D NOW!、
NetBurst。
第 3 页
计
算
机
硬
件
技
术
基
础
4.1 CPU概述
分代 Intel CPU 其他 CPU开始年代
第一代
第二代
第三代
第四代
第五代
第六代
第七代
8086/8088
80286
80386 DX/SX
80486
SX/DX/DX2/DX4
Pentium
Pentium MMX
Pentium Pro
Pentium II Celeron
Pentium III
Pentium 4
Pentium D/EE
1978
1984
1987
1990
1993
1996
2000
AMD K5
Cyrix 6X86/6x86MX
IDT WinChip C6
WinChip2 3D
AMD K6
AMD K6-2
AMD K6-3
AMD K7 (Athlon) / (64)
AMD Thunderbird
Pentium在拉丁文里面就是, 五, 的意思
第 4 页
计
算
机
硬
件
技
术
基
础
4.2 CPU的主要技术参数
4.2.1 位、字节和字长
位,CPU的最小存储单位,有,0”和,1”两种取值。
字节,CPU的最小访问单位,8位组成的。
字长,CPU一次能处理的二进制数,CPU中 ALU的处理
位数。
CPU按照其处理信息的字长可以分为,八位、十六位、三
十二位及六十四位微处理器等。
Intel x86系列 CPU
8位 8080,8085
16位 8086,80186,80286
32位 386,486,Pentium,PII,PIII,P4
64位 Itanium(安腾 ),P4 F,Pentium D/EE
第 5 页
计
算
机
硬
件
技
术
基
础
4.2.2 时钟频率
? 主频,驱动 CPU工作的周期性循环脉冲信号的频率,是
CPU内核 (整数和浮点运算器 )电路的实际运行频率。其周
期为时钟周期。多个时钟周期组成一个 机器周期,多个
机器周期组成一个 指令周期 。
?外频,CPU外频也叫 前端总线频率 或系统总线时钟频率,
是由主板为 CPU提供的基准时钟频率。
?倍频,CPU主频、倍频、外频三者的关系:
主频 =外频 × 倍频。
?超频,超频就是在实际使用中让 CPU工作在高于额定的
工作频率上。
Pentium
60~66
75~200
P II
66~100
233~450
P III
100~133
450~733
P 4
100~266
1~3.8G
CPU
外频
主频
第 6 页
计
算
机
硬
件
技
术
基
础
4.2.3 L1和 L2 Cache的容量和速率
L1和 L2 Cache的 容量 和 工作速率 对提高微机速度起
关键作用。
?L1 Cache,一般在 CPU内部,容量为几十 KB。
?L2 Cache,可在 CPU内部或外部,一般为几百 KB~几
MB。
L2 Cache对提高整数运算速度有显著作用 。
第 7 页
计
算
机
硬
件
技
术
基
础
4.2.4 工作电压
CPU 的工作电压,5V → 3.3V → 1~2V
?早期 CPU(8086- 486时代 )的工作电压一般为 5V。标
准的 TTL (Transistor- Transistor Logic)数字电路工作
电压为 5V。
?早期 Pentium CPU工作电压一般为 3V左右。这是由于:
? CPU的制造工艺提高,低电压工作可靠性有保障。
? 减小 CPU功耗,减小发热量。 CPU功耗与电源电
压的平方成正比。
? 节能。
?笔记本专用的 CPU和 Pentium4的工作电压一般为 1.2
~1.8V。
第 8 页
计
算
机
硬
件
技
术
基
础
4.2.5 地址总线宽度、数据总线宽度
? 地址总线宽度
地址总线宽度决定了 CPU可以访问的物理地址空
间,简单地说就是 CPU到底能够使用多大容量的内存。
? 8086——20位,最大存储器空间 1MB。
? 80286——24位,最大存储器空间 16MB。
? 80386——32位,最大存储器空间 4GB。
? Pentium Pro——36位,最大存储器空间 64GB。
? 数据总线宽度
数据总线负责整个系统的数据流量的大小,而数据
总线宽度则决定了 CPU与二级高速缓存、内存以及输
入 /输出设备之间一次数据传输的信息量。
? 数据总线宽度与 CPU位宽可能不一致。
? 数据总线宽度与总线位宽可能不一致。
第 9 页
计
算
机
硬
件
技
术
基
础
4.2.6 制造工艺
?半导体材料工艺 ——目前均为 CMOS工艺。
?TTL(Transistor- Transistor Logic) 晶体管逻辑
?NMOS(N-Channel MOS) N沟道金属氧化物半导体
?PMOS(P-Channel MOS) P沟道金属氧化物半导体
?CMOS(Complementary Metal Oxide Simeconductor)
互补金属氧化物半导体,CMOS工艺 IC功耗与频率成
正比,与电压的平方成正比。
?线宽 ——指芯片上的最基本功能单元的宽度,缩小线宽
可以提高集成度,Pentium CPU一般使用 0.6~0.13微米
线宽,最新技术是 0.09微米
?铜配线技术 ——以往芯片内部使用铝连线,现在普遍采
用导电特性更好的铜配线技术,可以提高 CPU的集成度
和工作频率。
第 10 页
计
算
机
硬
件
技
术
基
础
4.3 微处理器中所采用的新技术
4.3.1 流水线与超标量结构
非流水线指令的执行过程:
1) 取指令,从内存读取这条指令;
2) 译码,将指令翻译成操作命令;
3) 取操作数,从内存中读取执行该条指令所需的操作数;
4) 执行指令,CPU指定部件实际执行这条指令;
5) 回写,将执行的结果送回内存或寄存器中。
一条指令必须在前一条指令的五个步骤执行完后才能执行
下一条指令。
不一定所有指令都有五步。
取指令 FI 译码 D 取操作数 FO 执行指令 E 回写 W
第 11 页
计
算
机
硬
件
技
术
基
础
4.3.1 流水线与超标量结构
流水线 (pipeline),是 Intel首次在 486芯片中开始使用
的。流水线工作方式将不同指令的各个步骤并行化。执
行一条指令的步骤越多 (细化 ),流水线长度越长,流水
线效率越高。
影响流水线效率的另 2个因素:
? 数据相关性 ——指令的执行需要前一条指令的结果。
? 分支 ——控制转移。
指令 1
指令 2
指令 3
指令 4
指令 5
FI
1 2 3 4 5 6 7 8 9
D
FI
FO
D
FI
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
W
E
FO
D
FI
时钟
第 12 页
计
算
机
硬
件
技
术
基
础
4.3.1 流水线与超标量结构
超标量 (superscalar),在 CPU中存在多个相同的功能部
件,可以根据指令的需要动态分配功能部件,组成多条流
水线。这种设计就叫超标量技术。
采用超标量技术的 CPU集成了多个 ALU、多个 FPU、
多个译码器,以并行处理的方式来提高性能。
Pentium是 Intel系列 CPU中最早采用超标量结构的处理
器。带有 2条独立的处理管线,理想情况下每周期执行 2条
指令。
超标量处理器每个周期所使用到的执行单元 (用蓝色
表示 ),可见每个周期都有执行单元空闲 。
部件 n
部件 1
部件 2
…..
第 13 页
计
算
机
硬
件
技
术
基
础
超线程 (Hyper Threading)技术
超线程 (Hyper Threading),在单个处理器基础上提供两
个逻辑处理器,这两个逻辑处理器共享相同的物理执行单
元,而从软件的角度来看,操作系统可以象拥有两个物理
处理器那样为这两个逻辑处理器分配不同的线程。
Pentium 4共有 7个执行单元,平均只有 2~3个单元在使
用状态,在超标量结构中空闲的功能部件得到利用。
图中红色和蓝色分别为两个线程占用的
功能部件。
Pentium 4 Northwood B率先支持 HT。
Windows XP 的后期版本支持超线程。
部件 n
部件 1
部件 2
…..
第 14 页
计
算
机
硬
件
技
术
基
础
双核技术
双核 CPU,在 CPU内部
封装两个处理器内核。双核
和多核 CPU是今后 CPU的发
展方向。
intel最新的 (2005年 )双核
CPU:
Pentium D 和 Pentium
Extreme Edition。其中
Pentium D不支持超线程但
Pentium Extreme Edition支
持超线程。
第 15 页
计
算
机
硬
件
技
术
基
础
第 16 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
Cache存储器,容量较小、速度较快的静态存储器 (SRAM)
主存储器,容量较大、速度较慢的动态存储器 (DRAM)
CPU 主存储器 (DRAM)Cache(SRAM)
Cache的工作原理是基于程序访问的局部性:
1,时间局部性:如果一个存储项被访问,则可能该项会
很快被再次访问。
2,空间局部性:如果一个存储项被访问,则该项及其邻
近的项也可能很快被访问。
第 17 页
计
算
机
硬
件
技
术
基
础
命中,CPU访问存储器数据时,数据已在于 Cache 中则称
为命中。命中的概率为 命中率 。
Cache控制,命中时,只需直接访问 Cache即可。如果未命
中,需要将主存储器数据拷贝到 Cache中,再访问 Cache。
Cache比主存的容量小得多。 Cache的存储容量越大,
命中率也越高。太小会使命中率太低;过大不仅会增加成
本。
Cache命中率对系统的影响
平均存储器访问时间的公式为,Ta=HcTc+(1-Hc)Tm
其中 Hc是指命中率;
Tc是命中时 Cache访问时间;
Tm为主存访问时间。
4.3.2 高速缓存技术
第 18 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
Cache原理概要
?分块,将 Cache和主存储器都分成大小相同块,从存储
器到 Cache的调入是按块进行的。
?标签表,Cache的每一块对应一组标签信息,记录
Cache中该块存放的是主存储器的哪一块,全部的标签构
成一个表,该表的记录数等于 Cache的块总数。
?替换,未命中时,按照一个策略确定将主存储器的被访
问块复制到 Cache的哪一块。
控制位 块地址标签
控制位 块地址标签
… …
控制位 块地址标签
0
1
…
N
Cache
存储体
Cache标签表
第 19 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
Cache映像,主存储器块和 Cache
的块的对应关系。 3种映像结构:
? 直接映像 Cache,主存储器的每
个组中的第 n块对应 Cache的第
n%N个块 (%:除取余数 )。特点:简
单,效率低。
? 全相联映像 Cache,没有直接映
像的对应关系,主存储器的块可以
任意分配到 Cache的任何一个块。
特点:复杂,效率高。
? 组相联映像 Cache,直接映像和
全相联的组和,折衷方案。
Cache
主存储器
直接映像,N=4 M=8
设 Cache有 N个块,主
存储器有 M个组,每个
组中包含 N个块。
第 20 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
保持 Cache和主存储器内容的一致性
在 CPU与主存之间增加了 Cache之后,必须保证
Cache与主存的数据是一样的
CPU读
?贯穿读出式,CPU对主存的所有数据请求都首先送到
Cache,如果命中,则切断 CPU对主存的请求,并将数
据送出;不命中,则将数据请求传给主存。参看图 4.1。
?旁路读出式,CPU发出的数据请求向 Cache和主存同时
发出,由于 Cache速度更快,如果命中,则 Cache在将
数据回送给 CPU的同时,切断对主存的请求;不命中,
则 Cache不做任何动作,由 CPU直接访问主存。参看图
4.2。
第 21 页
计
算
机
硬
件
技
术
基
础
4.3.2 高速缓存技术
? CPU写
?写穿式,任一从 CPU发出的写信号送到 Cache的同时,
也写入主存,以保证主存的数据能同步地更新。它的
优点是操作简单,但由于主存的慢速,降低了系统的
写速度并占用了总线的时间。
?回写式,数据一般只写到 Cache,这样有可能出现
Cache中的数据得到更新而主存中的数据不变 (数据陈
旧 )的情况。但此时可在 Cache 中设一标志地址及数据
陈旧的信息,只有当 Cache中的数据被再次更改时,
才将原更新的数据写入主存相应的单元中,然后再接
受再次更新的数据。这样保证了 Cache和主存中的数
据不致产生冲突。
第 22 页
计
算
机
硬
件
技
术
基
础
影响 Cache命中率的因素:
? Cache容量 /主存储器容量
一般考虑性能价格比的折中。采用 2级或 3级 Cache,可
以以较低的成本获得较高的命中率。
? Cache块和主存储器块的相联关系
按效率由低到高 (同时实现由简单到复杂 )排列:
直接 ——组相联 ——全相联
? 替换策略:确定替换出的 Cache块的方法
先进先出策略 (FIFO,First In First Out),是把最先调入的
Cache字块替换出去。
最近最少使用策略 (LRU,Least Recently Used),把当前近
期 Cache中使用次数最少的那块信息块替换出去。
LRU策略优于 FIFO策略,但 LRU实现复杂。
4.3.2 高速缓存技术
第 23 页
计
算
机
硬
件
技
术
基
础
4.3.3 Cache技术的实现
Cache技术:
?多级 Cache,不前大多数 CPU为两级 Cache,高端 CPU可
能为 3级 Cache。分级 Cache可以以较小的成本获得较高的
命中率。如:
Pentium III采用 32KB L1Cache+256KB全速 L2 Cache;
Itanium采用 32KB L1 + 256KB全速 L2 + 2MB L3 Cache
?数据与指令 Cache,由于数据访问和指令访问之间不存在
局部性规律,所以 L1 Cache 将数据和指令 Cache分开,有
利于提高效率。
?Cache速度,L1 Cache一般和 CPU内核同步,L2 Cache
运行速度有半速和全速两种。
第 24 页
计
算
机
硬
件
技
术
基
础
CPU L1 Cache(内部 ) L2 Cache L3 Cache
80486DX 8KB混合型 无 无
Pentium 8KB+8KB 无 无
Pentium MMX 16KB+16KB 512KB
Pentium Ⅱ 16KB+16KB 512KB半速
Celeron 16KB+16KB 无 / 128KB半速
无
无
无
Celeron Ⅱ 16KB+16KB 128KB 全速 无
Pentium Ⅲ 16KB+16KB 256KB全速 无
Pentium 4 8KB+12KB Trace Cache 256KB 无
Xeon MP 16KB+16KB 256KB全速 1MB
Itanium 16KB+16KB 256KB全速 2-4MB
4.3.3 Cache技术的实现
第 25 页
计
算
机
硬
件
技
术
基
础
4.4 单指令多数据流技术
处理器虽然只能执行单个指令序列,但能将那些指令
同时应用于多个独立的数据。我们称之为“单指令多数
据” (SIMD——Single Instruction Multiple Data)处理器。
它允许 CPU 同时对 2,4,8 个数据进行并行处理。有效地
提高了 CPU 对 视 频,音频等多媒体方面的处理速度。
SIMD的具体体现是指令集的扩充,主要包括:
? MMX——Intel Pentium MMX
侧重提高多媒体数据处理速度,定点运算。
? 3D NOW !——AMD K6-2
侧重提高 3维变换,浮点运算。
? SSE——Intel Pentium Ⅲ
增强浮点运算能力。
? SSE2, SSE3——Intel Pentium 4
第 26 页
计
算
机
硬
件
技
术
基
础
4.4.1 MMX技术
MMX(MultiMedia eXtensions)技术是单指令流、多
数据流技术在奔腾 CPU的具体实现,在 Pentium MMX开
始使用,MMX技术核心体现在如下三点:
? 4种新的数据类
? 紧缩字节类型,8个字节打包成一个 64位长的数据;
? 紧缩字类型,4个字打包成一个 64位长的数据;
? 紧缩双字类型,2个 32位的双字打包成一个 64位长
的数据;
? 四字类型:一个 64位数据 。
? 8个 64位宽的 MMX寄存器
? 57条新指令
第 27 页
计
算
机
硬
件
技
术
基
础
有 57条 MMX指令添加到 Pentium原有的指令系统中,
这些指令 新的特点包括:
? SIMD型指令,一条指令可处理多个数据。
Zi=Xi+Yi
例如:使用一条 SIMD指令完成以下运算:
X=( 7,9,16,17,13,61,18,82 )
Y=( 56,12,10,20,33,11,25,29 )
+ + + + + + + +
Z=( 63,21,26,37,46,72,43,109)
第 28 页
计
算
机
硬
件
技
术
基
础
4.4.1 MMX技术
? 积和运算,能对加法和乘法同时进行运算。
∑(Xi× Yi)
例如:使用一条 SIMD指令完成以下运算:
X3 X2 X1 X0
Y3 Y2 Y1 Y0
X3 Y3 + X2 Y2 X1 Y1 + X0 Y0
× + × × + ×
第 29 页
计
算
机
硬
件
技
术
基
础
? 饱和运算,保证
当运算结果超出最
大值时按最大值运
算,低于最小值时
按最小值运算。
饱和运算常用于
音频和视频数据处
理,可以省去常规
运算的溢出检测。
4.4.1 MMX技术
原信号波形 (无符号数 )
经过非饱和运算放大
经过饱和运算放大
第 30 页
计
算
机
硬
件
技
术
基
础
4.4.2,3D NOW!”技术
3D Now ! 是第一种 3D加速指令集,共有 21条指令,由
AMD公司开发并于 AMD K6-2 CPU首次使用。
3D Now ! 和 MMX 指令集比较:
?两者都使用基于 SIMD的处理技术
?MMX主要侧重于整数指令的加速,加速的处理对象主要
是音频、视频数据。
?3D Now ! 主要浮点指令的加速,加速的处理对象主要是
三维图形。
使用 3D Now !指令的三种途径:
? 编程时直接使用 3D Now ! 指令;
? 编程时使用 API接口程序;
? 使用 支持 3D Now ! 的图形加速卡 。
第 31 页
计
算
机
硬
件
技
术
基
础
4.4.3 SSE技术
SSE(Streaming SIMD Extension)是 Pentium Ⅲ 扩展
的第二套多媒体专用指令集。和 MMX 指令集不同,SSE
的主要作用是加速 CPU的 3D运算能力 。
它总计包括 70 条指令,
?50条 SIMD浮点指令,主要用于 3D 处理
一条指令可以同时处理 4对单精度 (32位 )浮点数。
?12 条新 MMX指令,扩充 MMX指令集
?8 条系统内存数据流传输优化指令
采用新的数据预存取技术,减少了 CPU处理连续数据流
的中间环节。
从软件实际运行效果来看 SSE比 3D Now!效果更好,
从 Direct X 6.1 开始支持 SSE。
第 32 页
计
算
机
硬
件
技
术
基
础
Intel CPU复杂数据类型处理指令的发展
FPU → MMX → SSE → SSE2 → SSE2
MMX,Pentium MMX
? 8个 64位 MMX寄存器,可为各 SSE扩展所使用
? 数据为整数,支持 2个 32位,4个 16位,8个 8位运算
SSE,Pentium III
? 8个 128位 xmm寄存器
? 支持单精度浮点
? 支持 64位 SIMD整数
SSE2,Pentium 4 Willamette
? 双精度浮点
? 128位整数
? 双精度 —单精度转换
SSE3,Pentium 4 Prescott
? 主要增强了视频解码,3D图形优化和超线程性能
第 33 页
计
算
机
硬
件
技
术
基
础
4.5 CPU的封装与接口类型
4.5.1 CPU
的封装
第 34 页
计
算
机
硬
件
技
术
基
础
4.5 CPU的封装与接口类型
Socket系列,目前 Intel CPU常见的有 Socket 370(P III 二
代 ),Socket 423(P 4),Socket 478(P 4)。
Socket 423
插座
Slot 系列,有 Slot 1(P II / P III 一代 ),Slot 2 (P4 Xeon)。
又称 SEC(Single-edgecontactCartridge)卡盒
Slot 1
插座
第 35 页
计
算
机
硬
件
技
术
基
础
LGA775,LGA(Land Grid Array)封装下的 CPU,其特征是
没有了以往的针脚,取而代之的是整齐排列的金属圆点,
CPU不再靠针脚接触来固定,而是使用一个金属扣架将
CPU压在露出来的具弹性的触须上
Pentium 4的最新型号
采用 LGA775封装。
4.5 CPU的封装与接口类型
第 36 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium
1,Pentium (奔腾 )处理器
1993年推出的第五代处理器
◇ 早期 75~120MHz使用 0.6微米制造工艺
◇ 后期 120~200MHz频率以上改用 0.35微米工艺
◇ 供电电压为 3.3V
◇ 内部含有的晶体管数 310万个
◇ 内置了 8K+8K的一级缓存
◇ 时钟频率 60/66MHz
第 37 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium II
1997年推出,采用了与 Pentium Pro相同的 32位核心结构。
增强了 MMX指令集,主频 233~450MHz,采用了 Slot1封装
标准,512K同步突发式半速 L2缓存,集成度 750万。
Pentium II的发展经历了三个阶段:
第一阶段,0.35微米工艺,核心电压 2.8V,66MHz外频,
主频有 233,266,300三种
第二阶段,0.25微米工艺,核心电压 2.0V,66MHz外频,
主频有 300,333等几种;
第三阶段,0.25微米工艺,
核心电压 2.0V,100MHz
外频下,主频有 350、
400和 450三种。
第 38 页
计
算
机
硬
件
技
术
基
础
型号 核心 总线 主频 L2 封装 线宽
(MHz) (MHz) (KB) (微米 )
=======================================================
1 Celeron Convington 66 266~300 0 Slot 1 0.25
2 Mendocino 66 300~400 128 Slot 1 0.25
3 Mendocino 66 333~366 128 370 0.25
4 Celeron II Coppermine 66 533~766 128 370 0.18
5 Celeron800Coppermine 100 800~1100 128全速 370 0.18
6 Tualatin 100 900~1.4G 256全速 370 0.13
7 Celeron 4 Willamette 400 1.7~1.8G 128全速 478 0.18
8 Northwood 400 1.4~2.8G 128全速 478 0.13
9 Prescott 533 2.4~3.2G 256全速 478 0.09
10 CeleronD Prescott 533 2.4~3.2G 256全速 775 0.09
4.6 典型 CPU介绍
Intel系列 ——Celeron 赛扬
第 39 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium III
第一代 Pentium III处理器
0.25微米工艺;
拥有 32KB L1 Cache 和 512K半速 L2 Cache;
包含 MMX指令和 Intel自己的,3D”指令 ―SSE ;
主频有 450和 500MHz两种规格;
100 MHz外频;
除了 SSE指令外,
PIII与 PII很相象,事实
上也正是如此,在运
行没有为 SSE指令优化
过的应用软件时,PIII
与 PII的速度几乎一样。
第 40 页
计
算
机
硬
件
技
术
基
础
第二代 Pentium III—Coppermine
采用 0.18微米工艺
前端总线为 133MHz;
CPU主频最高 733MHz;
内置 256KB 全速 cache
工作电压 1.65V
Socket 370封装标准
4.6 典型 CPU介绍
Intel系列 ——Pentium III
第 41 页
计
算
机
硬
件
技
术
基
础
型号 核心 封装 主频 L2 线宽 系统总线
(GHz) (KB) (微米 ) (MHz)
=====================================================
P 4 Willamette 423 1.3~1.7 256 0.18 400
P 4 Willamette 478 1.5~2.0 256 0.18 400
P 4,A” Northwood 478 1.8~2.6 512 0.13 400
P 4,B” Northwood 478 2.3~2.8 512 0.13 533 HT
P 4,C” Northwood 478 2.4~3.4 512 0.13 800 ↓
P 4,E” Prescott 478 2.8~3.4 1M 0.09 533/800
P 4,E” Prescott 775 2.8 2M 0.09 800/1066
P 4,F” Prescott 775 3.2~3.6 1~2M 0.09 800/1066
PentiumD Prescott 775 3.2~3.6 1~2M 0.09 800/1066
PentiumEE Prescott 775 3.2~3.732M L3 0.09 800/1066
4.6 典型 CPU介绍
Intel系列 ——Pentium 4
第 42 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel系列 ——Pentium 4
Pentium 4 处理器是 Intel公司全新推出的 IA-32结构处
理器。采用了和以往( P6)不同的全新的 NetBurst体系
结构。 NetBurst微型结构采用了多种新技术。性能涉及
各种应用领域性能的提高。
Socket478封装的 Pentium 4 LGA775封装的 Pentium 4
第 43 页
计
算
机
硬
件
技
术
基
础
4.6 典型 CPU介绍
Intel NetBurst CPU结构特点
?超长流水线
Intel的 PIII处理器是 12层计算管线的超标量设计,而
初级 P4处理器是 20级计算管线的超标量设计,之后又增
加到 31级。
?将译码后的指令放入命令缓存
Pentium 4采用了微操作指令 (micro-operation)方式,
但与 P6体系结构不同的是,它不是在内部将可变长 x86
指令变换成固定长的 RISC指令,而是在其相当于一级缓
存的 Trace Cache(跟踪高速缓存)中存储译码后的微
码,一旦命中,无需译码操作,加快了处理速度。
?整数运算器 (ALU)的工作速度是内核的 2倍
当处理器的工作频率为 1.4GHz时,ALU实际工作频
率是 2.8GHz,1个时钟周期可以执行 2条命令。
第 44 页
计
算
机
硬
件
技
术
基
础
? 一级数据缓存容量少、速度高
一级数据缓存容量为 8KB(Pentium III的一半 )。访问
只需 2个时钟周期 (Pentium III是 3个 )。
? SSE2——强化多媒体指令
MMX和 SSE的再一次升级,称做 SSE2。
? 将原 SIMD的 64位整数运算扩充为 128位;支持 16
个 8位,8个 16位,4个 32位,2个 64位的 SIMD整数
运算;
? 将原 SIMD的 32位浮点运算扩充为 64位双精度浮点
运算。
? 400MHz前端总线
400MHz(100MHz外频 ) 的系统总线在奔腾 4处理器
和内存控制器之间提供了 3.2 GB/s的传输速度。
4.6 典型 CPU介绍
Intel NetBurst CPU结构特点
第 45 页
计
算
机
硬
件
技
术
基
础
4.6 intel Pentium CPU的发展过程
Intel Pentium 的
发展过程
Pentium
Pentium MMX
Pentium II
Pentium III
Pentium Pro
Pentium III Xeon
Pentium 4
Itanium安腾 Pentium 4 64位
Celeron
Celeron II
Celeron 4Xeon MP/DP
Pentium D/EE
8086
5~20M
地址 →24位
虚拟存储
保护模式
286
25M
地址 →32位
位宽 →32位
386
33M
486
100M
流水线、嵌入 FPU
倍频技术,Cache
Pentium
200M
超标量
64位数据线
二级 Cache
P MMX
233M 扩充 MMX指令
P II
450M
512KB L2 Cache
扩充 SSE指令
全速 L2 Cache
12级流水线
P III
733M
扩充 SSE2指令
Trace Cache
20级流水线
采用 NetBurst
400M FSB
P 4
Willamette
P 4
Northwood
533/800M FSB
支持超线程
扩充 SSE3指令
31级流水线
EDB防病毒
90nm工艺
800/1066M FSB
P 4
Prescott
64位
双核
P D
P EE
Intel 全系列 CPU的发展过程
第 47 页
计
算
机
硬
件
技
术
基
础
Pentium 4
(E)5XX
Pentium 4
(F)6XX
Pentium 4
EE Pentium D
Pentium
EE
封装 LGA775
前端总线 800 MHz 800 MHz 1066 MHz 800 MHz 800 MHz
核心 Prescott Prescott 2M Prescott 2M Dual Core Dual Core
线宽 90nm
L1 Cache 16 KB 16 KB 16 KB 2 x 16 KB 2 x 16 KB
Trace Cache 12KB micro-ops 2x12KB micro-ops
L2 Cache 1MB 2MB 2MB 2x1MB 2x1MB
EM64T None Yes Yes Yes Yes
XD-bit Yes
超线程 Yes Yes Yes No Yes
指令集 SSE,SSE2,SSE3
4.6 最新的 intel Pentium CPU