赛灵思中国通讯第42期-赛灵思推出采用堆叠硅片互联技术的世界最大容量...

赛灵思赛灵思中国通讯Xi l inx News

请即浏览赛灵思中国通讯网络版的全部精彩内容www.xilinx.com/cn/xcell42

新应用领域的出色表现采用 Spartan-6 FPGA 加速纹理映射

手把手课堂：FPGA 101使用时钟周期约束的优势

FAE 讲堂优化 FPGA 功耗：立竿见影

号外！号外！赛灵思工具和 IP 更新

资讯脉搏

技术长廊

赛灵思推出采用堆叠硅片互联技术的世界最大容量 FPGA

赛灵思 FPGA 引导机器人辅助外科手术系统

第四十二期 2 0 1 1 年冬季刊 I S S U E ４ 2 W I N T E R 2 0 1 1

©Avnet, Inc. 2011. All rights reserved. AVNET is a registered trademark of Avnet, Inc.

简洁易用的套件展示 Xilinx Spartan-6器件的多功能性

Xilinx Spartan-6 FPGA LX9 MicroBoard 主要特性:

• •

•

如需购买此套件, 请联络以下安富利科汇办事处或访问: http://mall.eetrend.com/

低价位的Spartan-6 LX9 MicroBoard 对于那些专

注于Microblaze嵌入式应用和Spartan-6 器件的

工程师来说是个很好的解决方案。这个套件提供

了几个预建好的Microblaze嵌入式系统，客户可

以象使用其他标准微处理器那样开始软件开发工

作。附带的SDK 软件开发包提供了一种类似于 Eclipse 的开发环境用来编写和调试代码。有经

验的FPGA工程师会发现MicroBoard 是一个很好

的开发样机和测试的工具，并且附带的外设和扩

展接口使这个套件可以应用在更广泛的领域。

Avnet Spartan-6 FPGA LX9 MicroBoardISE WebPACK 软件和指定器件锁定的SDK和ChipScope 软件许可证

Micro-USB 和USB 连接电缆

北京 (86 10) 8206 2488成都 (86 28) 8652 8262重庆 (86 23) 6879 7512福州 (86 591) 8771 0115广州 (86 20) 2808 7388

杭州 (86 571) 8580 0667南京 (86 25) 8483 8137 青岛 (86 532)8097 0716上海 (86 21) 3367 8387沈阳 (86 24) 8290 2597

深圳 (86 755) 8378 1886苏州 (86 512) 6522 2535武汉 (86 27) 8732 2806厦门 (86 592) 516 3621西安 (86 29) 8831 0515香港 (852) 2176 5388

安富利科汇中国办事处:

特惠价: ，含税

送FPGA培训一天￥538

封面专题

4 赛灵思中国通讯 42 期

封面专题

赛灵思推出采用堆叠硅片互联技术的世界最大容量 FPGA作者：Mike Santarini Xcell 杂志发行人

赛灵思公司

[email protected]


封面专题

52011年冬季刊 52011年冬季刊

封面专题

赛灵思现已向客户推出世界最

大容量的 FPGA：Virtex®-7

2000T。这款包含 68 亿个

晶体管的FPGA具有 1,954,560 个逻辑

单元，容量相当于市场同类最大28nm

FPGA 的两倍。这是赛灵思采用台积电

(TSMC) 28nm HPL工艺推出的第三款

FPGA，更重要的是，这也是世界第一个

采用堆叠硅片互联 (SSI) 技术（该技术是

赛灵思致力于实现3D IC 的方法）的商用

FPGA（参见《赛灵思中国通讯》第 39

期的封面报道）。

赛灵思可编程平台开发全球高级

副总裁 Victor Peng 指出：“Virtex-7

2000T FPGA 是赛灵思创新和业界合作

史上的一个重大里程碑。如果没有堆叠

硅片互联 (SSI) 技术，至少要等到下一代

工艺技术，才有可能在单个FPGA中实现

如此大的晶体管容量。就通常新一代产

品的推出而言，SSI 至少提前一年将我

们的最大型 28nm 器件交付给了客户，

这对 ASIC 和 ASSP 仿真和原型而言尤

其重要。”

传统上， FPGA 厂商习惯于采用最

新芯片工艺技术来实现他们的新架构，

充分发挥摩尔定律的作用，这样晶体管

的数量每 22 个月就能随最新芯片工艺技

术的推出而翻一番。过去 20 年，FPGA

厂商一直遵循摩尔定律的发展，不断推

出新的 FPGA，实现器件容量的倍增。

然而，针对 Vi r tex-7 2000T 和

Virtex-7 系列的几个其他产品，赛灵思

集成了6.8亿个晶体管，200万逻辑单元，采用2.5D IC架构设计的Virtex-7 2000T 2011年10月26日正式交付客户。

封面专题


打造了 SSI 技术。该技术在无源硅中

介层上并排连接着几个硅切片（有源切

片），该切片再由穿过该中介层的金属

连接，与印制电路板上不同 IC 通过金

属互联通信的方式类似。通过这种技

术，赛灵思让器件的发展步伐超过了摩

尔定律的速度。Virtex-7 2000T FPGA

的容量是市场同类最大28nm 器件的

两倍，而且比赛灵思最大型的 Virtex-6

FPGA 大 2.5 倍。赛灵思Virtex-7 FPGA

产品线经理 Panch Chandrasekaran

指出，该架构的真正优势在于，虽然

2000T由 4 个切片组成，但它仍保持着

传统 FPGA 的使用模式，设计人员可通

过赛灵思工具流程和方法将该器件作为

一款极大型 FPGA 进行编程。

除具有 1,954,560 个逻辑单元外，

Virtex-7 2000T 还包括含有 305,400

个 CLB 切片的可配置逻辑块 (CLB) ，

分布式 RAM 容量高达 21,550 Kb。

它共有 2,160 个 DSP slice、46,512

个 BRAM、24 个时钟管理模块、4 个

PCIe® 模块、36 个 GTX 收发器（每个

性能达12.5 Gbps）、24 个 I/O bank 和

共 1,200 个用户 I/O。

Virtex-7 2000T 的推出，标志着

赛灵思取得了一个重大成就，也标志着

赛灵思向半导体产业的 3D IC时代迈进

了一大步。Chandrasekaran 指出，该

产品的真正价值在于开启了用户创新之

门，为苦心寻找最大容量器件的客户带

来了新的设计能力。他说：“对那些希

望加速产品开发，为软件开发人员提供

芯片仿真功能，或者期望将多个芯片整

合到单个器件中，以及那些发现其设计

图1 赛灵思Virtex-7 2000T的推出是FPGA面向3D IC迈出的重大一步。图中从上往下依次表示的是封装表面，28nm FPGA硅片，硅

中介层和封装基板

图2 Virtex-7 2000T的性能足以满足高达2000万ASIC逻辑门的复杂设计，同时又可大幅节省NRE费用。图2展示的便是一个使用Virtex-7 2000T的设计实例。

CPU1 CPU2Core

I/O User Memory DDR2 SODIMMDDR3 SODIMM

IIC/PMBUS2x Ethernet

2x UARTGPIO

Trace/Debug

ZBT SRAM

XC5VLX330

XC5VLX330T

XC5VLX330

XC6VLX240T

XC5VLX330

XC6VLX240T

Soft JTAG

FMC1(HPC)

FMC2(LPC)

FMC1(HPC)

x8PCIe

Cable

Use

r FPG

ACo

nfigu

ratio

n

Core

CPU1

CPU2

I/O

Memory

User

封面专题

72011年冬季刊

不能采用 ASIC 的客户而言，他们都将

从这一了不起的技术中大受其益。通过

采用SSI 技术，赛灵思现在就把下一代

工艺才能提供的超大容量FPGA，交到

设计人员手中。”

ASIC 和 IP 仿真及原型

Gary Smith EDA 的设计工具分析

师兼 ASIC 方法专家 Gary Smith 指出，

目前高端 ASIC 或 ASSP 设计平均包含

4.2 亿个门。“我听说过的最大产品包

含 11 亿个门。”由于门的数量很多，

不管是商用仿真系统，还是自己动手设

计的 ASIC 原型设计电路板，90% 以上

的 ASIC 设计团队都要采用某种形式的

硬件辅助验证系统。

传统上，创建商用模拟仿真系

统的公司或自己进行原型设计的团队

一直是厂商推出最大型 FPGA 产品

的首批使用客户。商用仿真系统供应

商希望尽可能提高 FPGA 的容量。

Chandrasekaran 指出：“尤其是这

个市场的设计，将因为拥有Vir tex-7

2000T 超越摩尔定律的容量而获益匪

浅。Virtex-7 2000T可以让他们现在即

可向他们的客户推出拥有下一代容量的

仿真系统，并最终使得这些客户大大缩

短开发时间，并更快向市场推出更多新

的、更具创新性的产品。”

大多数商用模拟仿真系统包括两个

或两个以上电路板，以及数个 FPGA，

这具体取决于客户需要模拟仿真的

ASIC、IP甚至系统的大小。同时，模

拟仿真系统的客户可用其加速验证，确

保设计功能正常，而且能为软件团队提

供设计的硬件版本，帮助软件团队尽快

启动开发工作，等代工厂推出实体芯片

ASIC 后就能基本完成软件设计。这当

然有助于加快产品上市进程。

就商用模拟仿真系统的典型使用

模式而言，用户首先用传统的 EDA 验

证软件来设计 ASIC 或 IP并验证其功

能，做好这步工作之后，就能在商用仿

真器中实现寄存器传输级 (RTL) 版本

设计，以便进一步进行设计验证。每

个仿真器厂商通常提供自己的软件，

配合赛灵思的设计软件工作，以综合

RTL，并将 ASIC 设计分区到不同的

模块，让这些模块在仿真器中的各个

FPGA 上实现优化分配。模拟仿真厂商

的软件连接到运行不同 EDA 验证工具

的工作站或 PC 上，在仿真器上运行的

同时进行设计测试。

模拟仿真厂商也提供了低成本的选

择，有时称作仿真器的“复制品”或者

统称为“原型系统”。这些低成本选择

只能仿真 ASIC 功能。公司为软件团队

提供这些系统，旨在帮助他们快速开发

日后将在设计中运行的驱动程序、固件

和应用。

Chandrasekaran指出，更大型

的 FPGA 能让模拟仿真厂商推出更高

容量的模拟仿真系统，也能用较少的

FPGA构建中低容量的系统，从而提

升在该系统上运行的设计的整体时钟

速度的同时，降低功耗和材料清单成

本。Chandrasekaran 说：“Virtex-7

2000T 容量非常大，厂商甚至能够在

单个 FPGA 芯片基础上构建仿真器。

由于设计运行的芯片数量减少，甚至只

需要一个芯片，因此系统整体性能也能

变得更快。”

如果设计团队买不起市场上现成

的价值可能超过百万美元的昂贵模拟仿

真系统，Virtex-7 2000T也是不错的选

择。Chandrasekaran 指出：“许多设

CPU1 CPU2Core

I/O User Memory DDR2 SODIMMDDR3 SODIMM

IIC/PMBUS2x Ethernet

2x UARTGPIO

Trace/Debug

ZBT SRAM

XC5VLX330

XC5VLX330T

XC5VLX330

XC6VLX240T

XC5VLX330

XC6VLX240T

Soft JTAG

FMC1(HPC)

FMC2(LPC)

FMC1(HPC)

x8PCIe

Cable

Use

r FPG

ACo

nfigu

ratio

n

Core

CPU1

CPU2

I/O

Memory

User

封面专题


计团队都构建自己的定制开发板来进

行 ASIC或整个系统功能的原型和/或模

拟仿真，快速启动软件开发。即便用

仿真系统来开发自己 IC 的设计人员也

能为软件团队提供自己的不同版本的

FPGA。”

Chandrasekaran 表示，该器件对

IP 厂商也有吸引力。IP 厂商不仅能用

FPGA 来开发新的IP模块，还能用其向

潜在客户演示 IP核的功能。

系统架构整合与节能

除了有利于 ASIC 和 IP 模拟仿真

及原型外，新型 Virtex-7 2000T 对希望

降低系统功耗、增强性能和系统功能的

系统架构师也极富吸引力。

Chandrasekaran 指出：“市场上

使用多个 FPGA 的最终产品非常多。有

了 Virtex-7 2000T，就能在单个 FPGA

上集成数个 FPGA 的功能。系统集成提

高了性能，因为所有这些功能都集中在

了一个芯片上，系统集成后，避免了开

发板上不同 IC 间的 I/O 接口，从而降低

了功耗。I/O 接口数量越多，功耗就越

大，二者成正比关系。因此，设计性能

越高、系统中 IC 数量越多，功耗也就

越大。”

此外，系统功能在多个 IC 间的

分区也是一项复杂工作，可能会延长

设计时间，增加测试成本。多个器件

整合到系统中能减小分区压力，同时

还能降低验证和测试相关的成本。

Chandrasekaran 指出：“由于容量比

竞争性 FPGA 高出一倍还多，Virtex-7

2000T 能让客户进一步提高集成度，

相对于多芯片解决方案而言可将功耗降

低四倍左右。此外，由于打破了 I/O 瓶

颈，他们也能提升系统性能，同时因为

取消不必要的设计分区而降低了系统的

复杂性。架构师们也可以节省下大量的

板级空间以便添加其他功能，或者能够

缩小产品的尺寸。”

与其它 7 系列器件一样，赛灵思的

Virtex-7 2000T 也采用台积电专门针对

28nm FPGA 的高性能低功耗 (HPL) 工

艺技术（详见赛灵思中国通讯第37期的

封面报道）制造而成。Chandrasekaran

表示，由于赛灵思 Virtex-7 2000T 采

用 HPL 工艺制造，因此晶体管的漏电

流低于采用 28nm 高性能（HP）工艺

技术实现的同类竞争器件。这就意味着

Virtex-7 2000T 的功耗，仅相当于容量

仅为其一半的竞争器件的水平。

ASIC的替代产品

随着芯片工艺技术的不断发展，设

计和制造成本也在不断飙升。28nm的

ASIC 或 ASSP 的NRE成本超过 5,000

万美元，而且一旦修改 ASIC 则可能把

成本再增加近一半。设计过程中一旦因

为疏忽犯了错，就会严重影响产品赢

利，多次犯错就可能导致项目取消，错

过市场机遇，甚至导致公司的倒闭。

Vir tex-7 2000T 可取代 1,000

万到 2 ,000 万门级的 ASIC，避免

了 A S I C相关的N R E 成本问题。

Chandrasekaran 表示：“设计人员可

以集中精力进行设计，而无需再担心

什么小错误会导致灾难性的返工修改。

此外，Virtex-7 2000T 具有可重编程

性，如果设计人员犯了错误，对器件重

新编程就可以了。”

设计方法保持不变

虽然 Virtex-7 2000T 是一种超大

容量器件，但对该器件的编程不需要在

工作方法上做很大的调整。

Chandrasekaran 表示：“过

去几年来，充分考虑到超大容量设

计的需求，赛灵思一直在优化设计

工具。现在客户能够针对功耗和性

能有效地进行分区、布局规划和优

化。”Chandrasekaran 解释说，大多

数并非所有大型 FPGA 通常都需要设

计人员执行一定的分区工作，将时序关

键功能尽可能贴近彼此。设计团队如果

在 Virtex-7 2000T 中布置大型设计，

赛灵思工具可帮助他们进行布局规划，

并进行设计分区，从而实现最佳时序和

性能。

最新版赛灵思设计工具可支持

Virtex-7 2000T。Chandrasekaran 表

示：“用户现在就能立刻用 Virtex-7 2000T进行设计。”未来一年中，赛灵

思计划发布其它单芯片 Virtex-7 FPGA 以及SSI 配置。

如需了解更多 Virtex-7 2000T 的

信息及其使用情况，敬请访问：www.

xilinx.com/cn/7。

最后但同样重要的是，对于那些无法求证在 28nm 工艺节点开发 ASIC 或 ASSP 的成本和风险是否值当的、且越来越多不断增长的设计团队

来说， Virtex-7 2000T同样很有吸引力。

新应用领域的出色表现

92011年冬季刊


作者：Sebastien Bourdeauducq 创始人

Milkymist [email protected]

采用 Spartan-6 FPGA 加速纹理映射

这种要求严苛的图形流程曾经是

定制 ASIC 内核的应用，而如今

却成为低成本 FPGA 的天下。

作为一种以 FPGA 为构建基础，

而非采用专业多媒体片上系统

的手持设备，Milkymist One

无需计算机的辅助即能为聚会和音乐会

提供视频特效。在 Milkymist One 中，

Spartan®-6 FPGA 基本可实现系统的整

个数字化部分。另外，FPGA 的强大功

能还足以处理纹理映射，这种高端图形

功能代表了我们的系统必须执行的最密

集的数据处理任务。在传统上，纹理映

射属于 ASIC 图形处理单元的领地，而在

更早以前则是高端工作站的属地。

无论是音乐节目主持人、综艺节目

主持人还是其他活动的组织者都能在音

乐会、节日以及俱乐部中使用 Milymist

One（图 1）营造出具有极强娱乐性的

92011年冬季刊



视频效果。将摄像头与视频投影仪连接

在一起，按下电源按钮，数秒钟后拍摄

的一切就变成栩栩如生、似幻似真的光

色效果。将摄像头聚焦于舞台上的舞

者，指向参加聚会的人群乃至玩具或其

他对象，让观众为这种特效营造的效果

如痴如醉。如果没有摄像系统的加入，

Milymist One 可以单纯地根据环境声响

生成效果，特别适用于希望能以交钥匙

解决方案实现简单视觉效果的乐队、俱

乐部和聚会组织者。

该器件可支持来自多个源头的输

入：MIDI 键盘、USB 计算机键盘、

DMX 桌面以及OpenSoundCont ro l

(OSC) 客户端。用户甚至能够使用智

能手机与视觉效果无线地互动，只需要

将一个 WiFi 路由器连接至以太网端口

即可。另一个选择是使用广受青睐的

Arduino 电路板，利用其大量的传感器

界面来通过 MIDI 对 Milymist One 进行

控制。

我们必须克服设计这种器件的重大

挑战。我们的处理算法要求将相当数量

的计算功能和存储器带宽用于处理高帧

率和低时延的视频。另外，我们的器件

还必须与多种 I/O 协议实现接口相连。

就本应用而言，包含 CPU 和图形加速

功能的多媒体片上系统是许多工程师的

首选。然后，他们会选用一些外部芯片

来处理所有的接口。通过充分发挥赛灵

思器件的功能和灵活性，我们能够在单

个 Spartan-6 FPGA 中实现我们系统几

乎全部的数字部分，从而既可以降低成

本、精减芯片数量，又能够显著提升灵

活性。

Milymist One 的硬件

我们 Milkymist One 系统电路板的

核心是一块赛灵思 XC6SLX45（参见图

2）。该 FPGA 包含我们系统的所有数字

逻辑，如软核 CPU、存储器控制器、硬

件加速器以及 I/O 外设等。

通过使用 Spartan-6 的“主 BPI”

模式，FPGA 可从 NOR 闪存芯片中读取

配置数据。该闪存芯片随后使用“现场

执行 (execute-in-place)”方案运行引导

载入程序，即一边从 NOR 闪存获取处理

器指令，一边对其进行执行。引导载入

程序随后激活 SDRAM，并加载应用软

件。该闪存芯片还负责存储这类应用软

件，并保留使用 YAFFS2 的用户数据。

YAFFS2 是一种可提供损耗均衡和日志

功能的闪存优化型文件系统。

我们的应用软件能够从互联网下载

FPGA 比特流更新，并将它们写入闪存

中。拜 Spartan-6 FPGA 所具有的多重载

入 (MultiBoot) 特性所赐，如果某个失效

的互联网更新会导致错误的比特流，则

系统能够失效保护到我们工厂编程的救

援“黄金”比特流上。

与 FPGA 直接连接的一对 DDR

SDRAM 芯片可提供 128MB 的系统存储

器。为有助于满足该接口严格的时序要

求，Spartan-6 FPGA 可为其提供双数据

速率 I/O 寄存器、运行时间可编程延迟锁

相环（带 DCM）以及 I/O 延迟元件。

我们的器件可支持两个全速的 USB

主机端口。FPGA 在此处再一次负责提

供大部分硬件。Spartan-6 可直接驱动

模拟收发器芯片，以便轻松将 LVCMOS

3.3V 电平转换为能够完美符合 USB 标

准的信号。串行接口引擎和主控制器逻

辑采用 FPGA 架构实现。在原型设计阶

段，我们甚至能够仅使用电阻和 USB 连

接器与赛灵思 ML401 开发板的 I/O 扩展

连接器相连，就能成功地将 USB 器件直

接与 FPGA 相连。

在视频输出方面，FPGA 可驱动一

个三通道数模转换器，以生成 VGA 端

口的 RGB 分量。Spartan-6 中包含的

DCM_CLKGEN 原语具有高度的灵活

性，能够针对像素时钟将多种不同频率

进行综合，从而使我们的器件能够支持

大量的视频模式。

此外，我们当前还在研究如何对由

VGA 端口输出的复合视频信号 (CVBS)

进行综合。市面上已经有一些计算机图

形卡，能够使用低成本的无源适配器将

CVBC 器件与其 VGA 输出相连接。不

过，在一套采用 FPGA 的系统上生成原

色分量也是完全可行的。我们仅需要使用

数字信号处理技术实现 CVBS 信号发生

器，然后将生成的数据送给 VGA DAC 即

可。这样我们的器件就能轻松地与音乐以

图 1 由 FPGA 控制的手持式 Milkymist One的数字系统功能。


112011年冬季刊

及现场表演场地仍然大量使用的传统视

频投影仪和视频混合控制台相连接。

我们的设计可将 Spartan-6 与一对

RS485 收发器相连接，为 DMX512 提

供支持。该协议可用于进行舞台上的灯

光控制，能够让器件将周边的灯光与可

视效果进行同步。在此，整个DMX512

信号发送系统也是采用 FPGA 来实现

的，而外部组件基本都是模拟组件。

此外，为了能与常用的控制器和

传感器进行交互，我们的系统还支持

MIDI。我们的设计实现与 DMX512 类

似，只有模拟外部组件。我们还支持

以太网（仅使用一颗 PHY 芯片）、音

频（通过通用的 AC97 编解码器）以及

PAL、SECAM 和 NTSC 制式视频输入。

大多数这些外设都能从 FPGA 获

取时钟，而 FPGA 则使用其数字时钟

管理器 (DCM) 从统一的 50MHz 时钟

源将必要的频率进行综合。我们的电

路板上只有两个额外的晶振，而且为进

一步减少成本，我们正在考虑在将来的

PCB 版本中使用更多 FPGA 生成的时

钟将其更换。

何谓纹理映射？

在所有 Milkymist 器件的 FPGA 必

须执行的数据处理任务中，纹理映射是

密集程度最高的。纹理映射是 OpenGL

及 DirectX 等已加速 3D API 的一种通

用计算机图形运算，通常用于在屏幕上

绘制带纹理的 3D 多边形。此外，其还

能扭曲图像（如图 3 所示），而且我们

也常将其用于此目的。

通用的图形处理单元在三角形上

执行纹理映射，并且将更加复杂的多

边形分解为一系列的三角形。输入到

算法中的是待填充的三角形的三个顶点

的 2D 位置（也可能是原始 3D 坐标的

投影），以及这三个顶点的 2D 纹理坐

标。之后，该算法再逐像素绘制有纹理

的三角形，方法是为每个像素线性地内

插纹理坐标，然后复制这些坐标处的纹

理像素（也称为纹理元素）。

通过简单地改变各顶点的位置或者

每个顶点的纹理坐标的位置，纹理映射

能够实现缩放、旋转或者比例尺变化等

图像处理运算。但常见的问题是线性内

插的结果并非整数，这就意味着应该在

四个相邻的像素（参见图 4）中对纹理

进行采样。在这种情况下，为了实现更

理想的渲染，应读取四个像素，并将其

色彩值进行平均（根据比例取不同的权

重），这个流程被称为双线性滤波。我

们的应用需要双线性滤波来实现理想的

可视结果。

纹理映射，是一个计算强度大以及

所需存储器非常密集的进程，这从性能

的角度即决定了软件实现的不可行，在

需要双线性滤波的时候尤为如此。

FPGA 实现

预计用于读取帧缓冲器的存储器延

迟将成为性能制约因素。我们没有采用

高级预获取技术等复杂且资源密集的技

术来降低存储延迟，而是简单地采用直

接映射的像素元素高速缓存，不仅简单

而且还能快速命中。另外在设计纹理映

Spartan-6 中包含的 DCM_CLKGEN 原语具有高度的灵活性，能针对像素

时钟将多种不同频率进行综合，使我们的器件能支持大量的视频模式。

图 2 Spartan-6 FPGA 位于 Milkymist One 印刷电路板的中心位置



射单元其余部分的时候，还需要注意让

存储器读取延迟成为唯一的制约因素。

采用直接映射像素元素高速缓存

可实现高达 90% 的命中率，以每个周

期命中一次，每 9 个周期失的一次计

算，存储器的平均存取时间为 1.8 个周

期。采用 80MHz 的系统时钟，则此

类高速缓存的每秒吞吐能力为 44M 象

素，足以满足我们的应用所需。

为确保存储器存取时间是唯一的制

约因素，我们在设计系统其余部分时，

使之能够支持每个时钟周期大约一个输

出像素的处理能力。与之相对应，算法

的实现以占用空间为主（硬件组件很少

或者根本没有基于时间的资源共享），

但不要求复制资源密集的大型硬件单

元。以空间为主的实现所用面积比时间

共享的大，但更简单明了，需要的多路

复用器数量越少，也能够更好地避免走

线拥塞，从而更加简便地实现 FPGA 的

时序收敛。

为此，我们为纹理映射算法选择

了深度流水线实现。图 5 是这种方案

的方框图。

流水线的头几级用于从存储器

中获取低带宽的顶点信息，然后使用

某种 Bresenham 算法的变体计算内

插纹理坐标与目标坐标。我们通过采

用行为 Verilog HDL 来实现这些级，

随后使用免费的 XST 综合器（ ISE®

WebPACKTM设计套件的组成部分）进

行处理以生成经优化的网表。地址生

成器能够充分利用 Spartan-6 FPGA 的

DSP48A1 Slice 提供的硬件乘法器，高

效率地计算与内插坐标对应的纹理帧缓

冲器中的存储器地址。XST 综合器能够

根据 HDL 源代码中“*”运算符自动推

导硬件乘法器，从而使其使用方法既简

单又方便。

若要从存储器中获取纹理元素数

据，则会变得更加复杂。在每个时钟周

期，我们都需要从高速缓存中获取四个

不同的像素。准备四个不同的高速缓存

没有必要，因为双线性滤波器的不同通

道通常使用来自同一高速缓存线路的数

据。因此我们需要一个四端口 SRAM，

但这看似在 FPGA 中比较困难。

幸运的是，Spartan-6 FPGA 中真

正的双端口 SRAM 可提供理想的解决

方案。我们通过使用两个原始的双端口

SRAM 复制数据，以适当的代价实现了

四端口 SRAM。在正常运行状态下（命

中），每个端口为一个通道服务。在失

的后重新填充高速缓存的时候，读取被

禁用，而且可将两个端口（每个原始双

端口 SRAM 各一个）用于将数据送给

存储器。

图 6 显示了纹理元素高速缓存的

简化方框图。在每个时钟周期中，纹理

元素高速缓存均以流水线的方式处理来

自每个通道的存储器地址，如果这些存

储器地址命中高速缓存的话。如果“命

中”信号始终保持高电平，那么流水线

就会一直运行。

如果发生失的，“命中”信号会

转为低电平（流水线停顿），随即由优

先级编码器和多路复用器 (MUX) 选择

1, 2, 3, 4:

图 3 纹理映射是加速 3D API 的一种常见计算机图形运算，通常用于绘制有纹理的 3D 多边形。其能够使图像发生扭曲，如本图所示。

图 4 在纹理映射中，线性互插的结果通常不是整数。为此，需要对纹理的四个相邻像素采样并求得色彩平均值，该过程也称为双线性滤波。

1, 2, 3, 4:


132011年冬季刊

失的的地址之一（可以是一个，也可以

是多个）。存储器总线主系统发出一个

存储器交易事务以从系统存储器中检索

数据，然后替换高速缓存线路的内容，

并对标签进行重写。该地址现在变成命

中高速缓存状态。如果没有其他地址未

命中高速缓存，纹理元素高速缓存就已

经成功地处理该四通道交易事务，而且

“命中”信号会再次转为高电平，以进

行到下一个周期的处理。否则，该流程

将重复进行，直到所有的地址都命中高

速缓存为止。

可以看到，在现代 FPGA 中，只要

将用于存储的 Block RAM 的数量翻倍，

同时辅以合理数量的控制逻辑，就能够

实现理想的四端口高速缓存系统。

紧随纹理元素高速缓存之后，双

线性滤波器将四个获取到的纹理元素的

结果混合在一起。在此，我们的设计再

次充分发挥了 Spartan-6 中 DSP48A1

Sl ice 的性能，能够迅速计算出加权

和。最后，可使用写入缓冲器将结果存

储到基于 SDRAM 的系统存储器中。

一旦与我们的软核片上系统相集

成后，我们的纹理映射单元就会仅使用

低成本Spartan-6 FPGA 的一小部分资

源，却能提供每秒 7,000 万像素的峰值

填充速率以及每秒 3,700 万像素的平

均填充速率。与纯软件相比，即便是与

使用运行在高性能（及高能耗）ASIC

CPU 的软件相比，性能也是一大飞跃，

能够充分满足我们应用的要求。

高度灵活的单芯片

采用高性能可重配置 FPGA，可在

高度灵活的单芯片中将过去只有 ASIC

才能处理的繁重图形处理功能与非常特

定的 I/O 接口结合在一起。

M i l k y m i s t 系统能够充分利用

Spartan-6 FPGA 的众多特性：I/O 延迟

组、DDR寄存器、大型真双端口 Block

RAM、DSP Sl ice、灵活的 DCM_

CLKGEN 组件、能够从 NOR 闪存进行

Wishbone

FastMemoryLink

CSR

FastMemoryLink

配置以及多重引导功能。我们的完整设

计仅使用了 FPGA 资源的大约一半，为

将来的改良和特性预留了充裕的空间。

这对成本像 XC6SLX45 这样低的芯片

来说是非常了不起的。

对于未来的功能改进而言，我们

的整个 FPGA 设计是属于开源的，而

且其许可和开发模式与 Linux 内核一

样。欢迎用户根据自己的需要修改和对

FPGA 进行重新编程，并将我们的系统

作为通用开发平台使用，从而全面展示

Spartan-6 系列的功能与灵活性。设计

人员能够使用免费的 ISE WebPACK 设

计软件（同时提供 Linux 版和 Windows

版）重新构建完整的比特流。

最后需要指出的是，我们器件的

总功耗不足 5W，从而不仅充分凸现了

以单芯片 FPGA 为核心的解决方案的

又一优势所在，同时还进一步推翻了所

有 FPGA 系统都是高功耗系统的错误

认识。更多详情，敬请访问 http://www.

milkymist.org。

图 5 我们采用深度流水线实现纹理映射算法，如方框图所示。

FastMemoryLink

SRAM

SRAM

图 6 以流水线方式进行的四通道纹理元素高速缓存运算。

手把手课堂：FPGA 101



作者：Sharad Sinha 高性能嵌入式系统博士生中心

南洋理工大学

[email protected]


使用时钟周期约束的优势

通过赛灵思 ISE 及工具行为方式深入了解 TS_clk 约束，在 FPGA 设计方案中获得高效率时序收敛。


152011年冬季刊

设计人员可通过设置时序约束来满足芯片设计的具

体时序需求。物理综合工具可通过布局布线满足

这些时序约束。一个非常常见且重要的时序约束

条件与最大时钟频率密切相关，我们通常称其为周期约束。

在 Xilinx® ISE® 工具套件中，该约束在用户约束文件 (UCF)

中被称之为 TS_clk。赛灵思时序约束用户指南规定，周期

约束用于：

1）定义设计中的每个时钟；

2）覆盖每个时钟域中的所有同步路径；

3）交叉检查相关时钟域之间的路径；

4）定义时钟持续时间；

5）定义时钟占空比。

用户指南包含丰富的详细信息，并对周期约束功能提

供了良好的相关解释。不过我们应当深入了解 FPGA 综合

工具背后的奥秘，探索相关周期约束行为的一系列问题，并

掌握布局布线的算法如何工作。具体而言，我们将讨论解释

TS_clk 约束失效的方法，通过渐进约束工具来检查您是否

正在逐步改善结果，讨论为什么工具显示的结果存在差异。

最后我们还将了解这种时序约束相对于非约束设计的优劣。

如何解释 TS_CLK 约束失效

如果设计不能满足时钟周期约束要求，就意味着它不

能在相应的时钟频率下运行。此后您可进行流水线设计，在

慢速路径下放松时序要求。流水线技术可能足以让设计满足

约束条件。还有一种改进时序的办法就是减少两个寄存器

之间的逻辑级数，事实上您需要简化关键路径中的逻辑设

计。这两种方法都适用于设计层面，在该层面上设计人员

可对 RTL 代码进行必要的调整。如果您的设计在 RTL 调

整后仍无法满足时序要求，下一步就要启用赛灵思 ISE 开

关： register_balancing（专门用于寄存器重新定时）与

register_duplication（可复制寄存器，降低特定寄存器下的

高扇出）。

改进时序的另一种途径就是将引脚正确地分配给 I/O 信

号。良好的设计实践是将相邻的引脚分配给相邻的信号。例

如，一个 I/O 总线上的所有信号应分配给一个 bank 上的相

邻引脚。分配大量引脚时应使用相邻 bank。

以上问题非常重要，它们将作为布局布线工具的约束条



件。该工具通常会尽量使相关逻辑在一起，如果相关 I/O 分

配给相邻引脚，这就比较容易，因为该技术很有可能将减

少布线延迟，然后工具也不会分散器件上的逻辑。分散逻

辑会加大布线延迟。

一般而言，在 FPGA 必须位于印刷电路板上时，在分

配引脚时就要考虑更多相关电路板的问题。由于 FPGA 会

与电路板上其它芯片连接，因而相邻引脚分配法不见得总

能适用。因此，FPGA 设计人员最好在设计阶段早期就与

电路板设计人员沟通，以减少引脚分配冲突。

还有一种改进时序的方法是使用更高速级别的器件。

不过，这会影响产品价格，因此这不是轻易可以选择的。

我们不光要考虑器件本身成本的提高，还要考虑更高速器

件会对电路板设计产生影响，进而也很容易提升电路板设

计成本。

渐进约束工具能否实现更好的结果？

有时我们希望知道特定设计方案可运行的最高频率。

为了弄明白这一点，我们渐进性地进行设计方案约束。比

如，先将时钟周期约束设为 8 纳秒（对应于 125 MHz 的时

钟频率）。如果工具在此约束条件下成功完成设计的放置

与路由，它可能会报告最低时钟周期为 7.68 纳秒等信息。

此后我们可将时钟周期约束在 7.68 纳秒并再次运行 ISE。

这时工具可能会报出最低时钟周期为 7.56 纳秒。然而，

我们将该设计再次约束在 7.56 纳秒时，工具可能会报告

7.74 纳秒最低时钟周期的时序错误。这就是说，我们要实

现 7.56 纳秒，就必须将设计约束在 7.68 纳秒。所以设计

方案的渐进约束在改进时序方面存在局限性。过了一定程

度的约束，结果可能就会恶化。

如果设计规模不大，周期约束又很严格（很短的周

期），工具可能就会报告一个比后布局布线 (PPR) 静态

时序报告中的周期约束低的时钟值。但是它仍会显示一

个时序错误的分值（其在无时序错误时为零），如该页所

示，在设计（面向 XC4VFX140-11FF1517）中周期约束

设为 1.5 纳秒、占空比为 50%，这与实际静态时序报告

有误差：

该报告清晰显示时钟周期为 1.489 纳秒，低于 1.5 纳

秒。但设计方案的目标应用是速度级为 11 的 Virtex®-4 器

件，其最大频率为 450.05 MHz。因此就存在着时序错误。

需要强调的是，我们在设置约束时还必须了解器件的开关

特性。

工具显示的结果为什么有差异？

工具显示的结果有差异，是因为它采用的是启发式

算法。设计人员使用这些算法来解决精确算法由于时间

空间复杂性所致的不适应性问题或者对实施开发存在极

端困难的问题。启发式算法通常使用所谓的成本函数，

将一些器件信息以及其它经验所得的常量纳入考虑，从

而可选择解决方案。不过这些算法不能确保该解决方案

就是最好或最佳的。

启发式算法通常先为逻辑布局提供初始随机种子值，

然后布局进程根据成本函数分析围绕种子位置的发展，之

后才能进行布线。由于种子值会随约束条件每次改变后工

具的每次调用而改变，因此超过某个点之后结果会恶化。

工具不参考此前的行为和上次运行报告的结果，难以进一

步提高其工作能力。要根据此前的布局布线策略设计放置

路由算法并将当前及以前结果进行比较，也极其困难。


172011年冬季刊

赛灵思 ISE 中的 SmartGuideTM 技术可采用此前运行

的结果来指导新的实施方案，不过只有实施方案两次迭代

之间逻辑发生一定变化之后 SmartGuide 才能起作用。如

果逻辑不变，只是渐进约束相同设计方案，该技术就不适

用。设计人员往往会被这种差别弄糊涂。

在这方面，赛灵思 ISE 中的 SmartXplorer 选项只是

一种通过不同时序约束条件加速调查时序进程的手段。工

具在 Linux 网络或多处理器 Linux/Windows 等不同设备上

并行执行时，该策略可帮助设计人员使用不同的约束条件

调查相同的设计方案。

因此，即便赛灵思 I S E 提供这些选项（其它

FPGA 设计套件也提供类似选项），工具都不能记住上

次运行的情况，难以在约束条件渐进缩进的下次运行中

比较并改进结果。如果出现这种情况，过了某一特定的

点，工具就只会报告一个最低值，而不会报告约束渐进

的不同值。由于我们难以根据此前的布局布线信息反馈

设计算法、改进相同设计方案的时序，因此我们应当知

道和理解工具的局限性。

时序约束通常都比非约束设计好吗？

传统上认为，约束性设计的时序通常比非约束性设计

好。一般而言这是对的。不过这也并非绝对。有时在非约

束性设计中，工具反而能够以尽可能最好的方法实现设计

方案的最佳布局布线。如表 1 所示，在非约束实施方案

中，可实现的时钟频率是最高的。出现这种差异的原因还

是布局布线算法工作的方法。

我们在南洋理工大学高性能嵌入式系统中心的团

队采用赛灵思 ISE vers ion 12 .2 M.63C 在 V i r tex -4

XC4VFX140-11FF1517 FPGA 上实施绝对差值和 (SAD)

表 1 周期约束条件对实际时序的影响

算法（参见赛灵思中国通讯第 40 期）。我们部署的 8x8

SAD 采用 8 个图像像素（每个 16 位）和 8 个参考像素

（每个 16 位），使用外部选择信号选定两个像素减去，因

此设计方案最后就只有一个减法器。我们没有使用任何调

节寄存器，而且所有内部寄存器都初始化为零。我们在该

实验中也没有进行引脚分配。

从表 1 中可以看出，我们在未设置约束条件时能实

现 2.607 纳秒的最佳最小时钟周期。我们将周期约束设为

2.607 纳秒，工具报告可实现的最佳时钟周期为 2.863 纳

秒，而将 2.863 纳秒设为周期约束条件，所得到的可实现

最佳时钟周期则为 2.795 纳秒。这是因为工具一旦得到接

近值，就不会再继续尽力满足约束条件了。将 2.795 纳秒

设置为新的约束条件不会将可实现最佳时钟周期降至 2.607

纳秒，而会将其升至 2.966 纳秒。在此情况下，工具没有

满足约束条件要求。

结果中的这种随机性源于布局布线算法的启发性。这

同时也说明，设计人员在设置和再设置周期约束条件满足

时序收敛要求时需要花大量的时间。

伪随机解决方案

周期约束是 FPGA 设计中最重要的约束之一，对时序

收敛至关重要。因此，了解其行为方式以及如何解释其结

果也非常重要。渐进约束时钟周期不一定就能改进结果。

每次重大软件的发布，厂商通常都要改进 FPGA 设计工具

中部署的布局布线算法。因此，不同版本的时序结果可能

有所差别。

与布局布线具有高度确定性的 ASIC 不同，FPGA 布

局布线算法具有启发式特性。这很容易理解，因为 FPGA

的性质所决定，随机逻辑必须映射到具有固定组件及路由

资源的固定硬件架构上。

FPGA 布局布线是一种 NP 完整性问题 — 其中没有找

到解决方案的高效率方法。对这种问题而言，没有已知的

多项式时间算法能提供准确的或最佳的解决方案。因此，

解决这种问题就要根据伪随机过程采用启发式或者某些接

近或相似的方法。

此外，这些算法的运行时间可随输入量的增长快速变

化，就像我们很多人经历的大型 FPGA 设计一样。这是

NP 完整性问题的基本方面，因此结果的质量很大程度上取

决于所用启发式或所部署近似方法的类型。

周期约束条件（纳秒） PPR 报告值（纳秒）

无约束条件 2.607

2.607 2.863

2.863 2.795

2.795 2.966

2.966 2.762

FAE 讲堂


FAE 讲堂


优化 FPGA 功耗：立竿见影

本文对新型 7 系列 FPGA 在开发过程中各个环节的

低功耗设计技巧进行了概括。

FAE 讲堂

192011年冬季刊

作者：Chandra Sekar Balakrishnan 解决方案开发工程师

赛灵思公司

[email protected]

为设计寻找“完美”FPGA 的重

要性日渐升级，其中功耗已成

为主要考虑因素。功耗管理在

大部分应用中都非常关键。某些标准已

为单卡或者单个系统设定了功耗上限。

鉴于此，设计人员必须在设计过程中更

早地对功耗问题加以考虑，一般来说应

该从选择 FPGA 开始。

减少 FPGA 的功耗可以降低供电电

压，简化电源设计和散热管理，降低对

电源分配面的要求，从而简化电路板设

计。低功耗还可以延长电池寿命，提高

系统的可靠性（运行温度较低的系统寿

命更长）。

功耗挑战

伴随每一代工艺技术的问世，晶体

管的尺寸可依照摩尔定律不断缩小。但

这种现象也会带来副作用，即每个晶体

管内的漏电流会增大，进而导致静态功

耗增大（未工作状态下 FPGA 消耗的总

电流增大）。FPGA 性能的提升会提高

时钟速率，使动态功耗上升。静态功耗

是晶体管漏电流造成的，动态功耗则取

决于可编程逻辑和 I/O 的开关频率。由于

每一代 FPGA 的容量都在增大，会使两

种功耗不断增加。更高的逻辑容量意味

着每个器件会有更多漏电流和更多在更

高速度下运行的晶体管。

鉴于这些问题的存在，设计人员必

须在设计过程中尽早对电源和热管理问

题有更加清楚的认识。给器件加上散热

器并不足以解决这些问题。因此设计人

员必须尽量减少设计中的逻辑用量。

首先来看几点指南，有助于理解在

设计过程各个阶段应采取何种措施来降

低FPGA的功耗。很明显，在设计过程

的初期彻底理解这些问题能带来最大的

收益。

图 1 说明了包括 FPGA 选择以及低

功耗设计技巧在内的贯穿整个设计过程

的不同设计点

7 系列工艺技术

在选择 F P G A 的过程中，应谨

慎考虑工艺技术，它能帮助用户判断

器件的漏电流和性能。赛灵思 7 系列

FPGA 采用 28 HPL （28nm 高性能低

功耗）工艺，在提高性能的同时可显著

降低功耗（见第 41 期《赛灵思中国通

讯》的封面故事）。选择采用低漏电流

的 HPL 工艺制造的器件，可以避免在

FPGA 设计中使用复杂且成本高昂的静

态功耗管理方案。

IP

XPE, PlanAhead,Power Estimator, XPA

28-nm HPL

图 1 降低功耗开始于器件选择、工具支持和软件优化

FAE 讲堂


尽管 28 HP 工艺 FPGA 的性能并

没有超越 7 系列的其它 FPGA，但其

静态功耗还不到竞争对手 FPGA 静态

功耗的一半，而且不会造成严重的漏

电流问题。图 2 显示了 7 系列产品的

全面降耗情况，整体功耗仅为上一代

40nmFPGA 器件的一半。

设计人员可以在开发阶段选择较大

的 FPGA，然后在生产过程中选择较小

的 FPGA。选择较小的 FPGA 不仅可以

降低成本，还能降低系统功耗。

所有 7 系列 FPGA 均采用统一的

架构。这种统一架构便于在赛灵思 7 系

列的不同 FPGA 器件之间方便地进行向

上或向下迁移。如果需要从 Virtex®-6 或

者 Spartan®-6 器件迁移至7 系列器件或

者在 7 系列器件之间迁移，请参阅“7

系列用户指南”(UG429)。

赛灵思堆叠硅片互联技术

对较大的系统来说，设计人员一

般会选择多个 FPGA。这种架构往往需

要在各个 FPGA 之间高速传输数据，

这是一项复杂、困难的工作。选择采

用赛灵思堆叠硅片互联技术制造的大

型 7 系列 FPGA，比如 XC7V1500T 和

XC7V2000T 器件，就可以避免这个问

题。简单地说，堆叠硅片互联技术就是

将多片芯片布置在具有成千上万连接关

系的插入式结构中，用以制造统一的大

型器件。堆叠硅片互联技术的优势之一

在于，与采用标准单片电路的类似尺寸

的器件相比，可显著降低静态功耗。

堆叠硅片互联技术 (SSI) 还能大幅

度降低 I/O 互联功耗。与在电路板上布

置多块 FPGA 的方法相比，SSI 技术有

很大的优势，其 I/O 互联功耗比采用 I/

O 和收发器构建的等效接口低 100 倍

（带宽/W）。功耗大幅下降是因为所有

连接都构建在芯片上，无需功耗将信号

驱动到片外，这样可实现难以置信的高

速度和低功耗。

电压扩展增强选项

赛灵思 7 系列 FPGA 提供重要的

电压扩展选项。

7 系列 FPGA 为 -3L 和 -2L 器件

提供扩展 (E) 温度范围（0-100 摄氏

度）。由于 28 HPL 工艺提供的余量，-

2LE 器件可在 1v 或 0.9v 下运行。这

些器件被分别命名为 -2L (1.0V) 和 -2L

(0.9V)。运行在 1.0V 下的 -2L 器件的速

度性能与 -2I 和 -2C 器件相当，但静态

功耗显著降低。运行在 0.9V 的 -2L 器

件性能与 -1I和 -1C 器件相似，但静态

和动态功耗都有所下降。

仅仅将这些器件的电压降低到

0.9V 就可降低静态功耗约 30%。降低

电压也会降低性能，但赛灵思根据速

度和更加严格的漏电流规格对这些 -2L

(0.9V) 器件进行筛选。这种筛选方法能

够使器件在最劣工艺条件下的功耗比标

准速度等级器件的功耗降低 55%。

选择 -2L 器件，用户还能进一步降

低动态功耗。由于动态功耗与 VCCINT2

成正比，VCCINT下降 10% 可带来功耗

20% 的降幅。

功耗估算工具

今天的市场上有丰富的工具可供设

计人员选择，用以在整个开发过程中评

估 FPGA 设计的散热和电源要求。图 3

100

90

80

70

60

50

40

30

20

10

0

(%)

40 nm 28 nm

I/O

I/O

50%

Or-30%

-25%

-65%

图2 赛灵思 7 系列 FPGA 的功耗仅为 40nm 工艺器件的一半

表 1 静态、动态功耗和性能比较

7 系列 FPGA C 级器件 -2LE (1.0V) -2LE (0.9V)

VCCINT 1.0V 1.0V 0.9V

静态功耗标准 -45% -55%

动态功耗标准标准 -20%

性能 -1、-2 -2 ～-1

FAE 讲堂

212011年冬季刊

是 FPGA 开发过程中每个阶段可供使用

的赛灵思工具。

在设计初期，XPower Estimator

(XPE) 电子数据表能够在初步设计和实

施之前对功耗进行早期估测。XPE 可用

于架构评估和器件选择，帮助确定应用

所需的合适的电源和散热管理组件。

PlanAheadTM 软件则用于估测设计

电源在 RTL 级的分配情况。设计人员

可以使用约束条件或者 GUI 来设定器件

的运行环境、I/O 属性和默认活跃度。

PlanAhead 软件随即读取 HDL 代码，

估算所需的设计资源，并对每种资源的

运行状态进行统计分析，得出功耗估算

报告。由于能够掌握有关设计意图的更

加详细的信息，因此 RTL功耗估计器的

准确性优于 XPE 电子数据表，但不及

Xpower Analyzer 得出的后期布局布线

分析结果准确。

Xpower Analyzer (XPA) 是一种专

门用于分析布局布线设计功耗的工具。

它采用全面综合的GUI，可以对特定运

行条件下的功耗和发热量信息进行详尽

的分析。

用户可以在两种不同视图间切换，

用以确认各种类型模块（时钟树、逻

辑、信号、IO 模块、 BRAM 等硬 IP

核或 DSP 模块）的功耗或设计层级功

耗。两种视图都能让用户进行详细的功

耗分析。并为确定设计中最耗电的模块

或部件提供了一种非常有效的方法，从

而简化了功耗优化工作。

软件功耗优化

用户可通过尽量减少同时工作

的 Block RAM 端口的数量来优化使用

Block RAM 的设计的功耗。这种优化

方式可对跨多个 Block RAM 的 RAM

或 ROM 分解的描述进行修改，可通过

XST 中的“-power yes”选项来启用优

化功能。该优化通过调整地址线以及端

口使能和写使能信号来最大程度地减少

每个时钟周期中处于活动状态的 Block

RAM 端口的数量，同时能够确保用户

的设计满足时序约束条件。

下一步，不考虑性能影响，强制进

行最高能效的 Block RAM 映射。选择

ram_style 约束的 block_power2 选项，

前提是用户已经知道与该存储器相关的

时序路径并非关键路径。节能幅度可达

15% 至 75%。

另外，还可以使用 XST 中的区域

优化模式。该选项可以最大程度地减少

设计使用的资源数量。但应注意进行区

域优化可能会降低性能。

另一种技巧是进行活动感知优化，

或者说智能门控。这些算法能够分析逻

辑等式，检测在每个时钟周期中有哪些

寄存器源没有参与结果运算。软件随后

利用 FPGA 逻辑中可用的多余时钟使

能 (CE) 资源生成精细门控信号，用于

关闭无用的开关活动。用户可使用 map

–power high 选项控制该智能时钟和数

据门控功能。总体可降低超过 15% 的

内核动态功耗，在大多数情况下插入的

额外门控逻辑不会影响性能。

还有一种降低功耗的方法是使用容

量感知优化。主要有两种方法：

• 时钟负载分组：该方法对同步元

件（比如触发器或者 DSP 模

块）的布局进行重组，以最大程

度地缩小每个时钟网络的覆盖范

围。如果用户将水平或垂直时钟

柱的数量降到最低，软件就能

关闭时钟域中不用的分支。这样

可以同时降低时钟资源和缓冲要

求，进而节省内核动态功耗。这

RTL

PlanAhead RTL

XPower Estimator (XPE)

XPower Analyzer (XPA)

图 3 赛灵思为设计过程的每个阶段提供功耗估算和分析工具

为降低功耗，用户必须尽一切可能减少设计中使用的逻辑数量。首先是

使用专用的硬件模块，而不是在 CLB 中实现相同的逻辑。

FAE 讲堂


个过程可以用 map –power on

选项来控制。

• 数据负载分组：这种算法能够

在保证用户满足性能要求的情

况下最大程度地缩短设计的总体

走线长度。数据负载分组可以降

低功耗的原因在于，动态功耗取

决于扇出能力和用户布线结构

的类型和长度。该分组算法同样

由 map –power on 选项启用，

通过将相关逻辑尽量靠拢的方式

降低功耗。

ISE® Design Suite 为综合、映射和

布线布局的功耗优化提供了预先设定的

目标和策略。对于采用非默认约束条件

对综合进行设置的方法来说，该方案是

一种很好的替代选择。但是运行该选项

可能会增加各个路径的时延。

最后，赛灵思实现工具能够自动关

闭未使用的收发器、锁相环、数字时钟

管理器和 I/O。在7 系列器件中，赛灵思

已经加入了针对未使用 Block RAM 的

电源门控功能。只有当用户在设计中使

用 Block RAM 时才会产生漏电流，而

非器件中所有 Block RAM 都会产生漏

电流。在器件中，只对实例化的 Block

RAM 供电，对未使用的 Block RAM 不

供电。

低功耗设计技巧

设计人员可使用多种技巧和技术来

降低 FPGA 设计的功耗。首先是使用专

用的硬件模块，而不是在 CLB 中实现

相同的逻辑。为降低功耗，用户必须尽

一切可能减少设计中使用的逻辑数量。

这样用户就能够尽量缩小器件尺寸，降

低静态功耗。

使用专用的硬 IP 模块是既能降低

静态和动态功耗，又能轻松满足时序要

求的最重要途径之一。硬 IP 核能够降

低静态功耗的原因在于晶体管的总体数

量低于采用 CLB 逻辑的等效组件。

一般情况下，用户应推导出尽可能

多的资源。用户可利用代码中或者约束

文件中的属性，将推导出的资源单独或

分组调入 FPGA 架构或者硅片资源。

用户也可使用赛灵思 Core GeneratorTM

工具定制专用硬件，用于实例化特定的

资源。

另外，用户可以将未使用的硬 IP

核巧妙地用于其它并不明显的任务。

DSP48 slice 能够用于多种逻辑功能，

比如乘法器、加法器/累加器、宽幅逻

辑比较器、移位器、模式匹配器和计数

器。用户可将 Block RAM 作为状态机、

数学函数、ROM 和宽幅逻辑查找表

(LUT) 使用。

控制信号的最佳利用

控制信号（用于控制时钟、设置、

复位和时钟使能等同步元素的信号）可

以影响器件的密度、利用率和性能。以

下方法有助于将功耗影响降至最低。

首先应避免在寄存器或者锁存器上

同时使用设置和复位。赛灵思 FPGA 中

的触发器可同时支持异步和同步复位和

设置控制。但是底层触发器每次只能完

成一次设置、复位、置位或者清除。在

RLT 代码中为一项以上的这些功能进行

编码会导致在实现一种状态时使用触发

器的 SR 端口，其余的状态在架构逻辑

中实现，故占用更多的 FPGA 资源。

如果一个状态是同步的，另一个是

异步的，异步状态将成为使用 SR 端口

实现的状态，而同步状态将在架构逻辑

中实现。总的来说，最好避免一种以上

的设置/复位/置位/清除状态。另外，一

个 slice 中的4个触发器组中，每个组只

图 4 赛灵思已在 ISE Design Suite 中构建了功耗最小化设计目标和策略

FAE 讲堂

232011年冬季刊

有一个属性能够判断触发器的 SR 端口

是同步还是异步。

另外，应使用高态有效控制信号。

寄存器的控制端口为高态有效。不建议

在 FPGA 设计中使用低态有效复位。由

于需要在驱动寄存器的控制端口之前对

信号进行反转，因此低态有效信号需要

使用更多的查找表。这种反转必须使用

查找表完成，故会占用查找表输入。

因此，低态有效控制信号可能会

导致更长的运行时间，降低器件的利用

率，给时序和功耗造成不良影响。

尽量在 HDL 编码或者实例化组件

中使用高态有效控制信号。只要能够

控制设计中控制信号的极性，用户就

应在代码的最顶层反转信号。I/O 逻辑

能够容纳推导出的反转器，无需额外的

FPGA 逻辑或者走线，故能够改善利用

率、性能和功耗。

非必要的设置或复位

代码中的非必要设置或复位会导

致本来可以推导出的移位寄存器查找表

(SRL)、查找表 RAM、Block RAM 和

其它逻辑结构不能推导。虽然设计人员

可能会觉得别扭，但许多电路都可以设

定为自复位或者根本就不需要复位。例

如，如果电路被用于实例化寄存器，就

不需要复位，因为寄存器的初始化随配

置的完成自动进行。

通过减少使用非必要的设置或复

位，以及更高的器件利用率，设计人员

可实现更好的布局、更高的性能、更低

的功耗。

关于复位的详细介绍，请参阅

http://issuu.com/xcelljournal/docs/

xcell_journal_issue_76/44?viewMode=

Magazine&mode=embed

如果用户还想进一步降低功耗，

另一个值得注意的方面是时钟和Block

活动。用户应充分发挥BUFGMUX、

BUFGCE 和 BUFHCE 的作用来对整个

时钟域进行门控，以达到降低功耗的目

的。这些约束条件能够关闭整个时钟域

的时钟。类似的，如果应用只需关闭设

计中部分区域的时钟，可以使用 FPGA

寄存器的时钟使能引脚。

覆盖多个时钟域的设计会消耗更

多时钟资源，也会消耗更多功耗。只要

可能，应将间歇使用的逻辑布置在单个

时钟域（图 5）中。这样有助于降低功

耗。虽然工具会自动进行这方面的尝

试，但在部分设计中需要手动操作才能

完成。

另一项技巧是限制数据的运动（图

6）。请勿将操作数在 FPGA 内搬移，

仅搬移结果。使用的总线数量越少，长

度越短，容量就越低，运算速度就越

快，同时功耗也就越低。设计人员还应

该在布局规划的过程中注意将设计的引

脚与相应逻辑进行合理布置。

部分重配置降低静态功耗

可以使用较小型的器件来降低静态

功耗。采用部分重配置，设计人员能够

有效地按时间段对 FPGA 进行划分，并

单独运行设计的各个组成部分。这种设

计需要的器件尺寸要小得多，因为不是

设计的每个部分都需要一直运行。

部分重配置既可降低动态功耗，又

可降低静态功耗。例如，许多设计必须

高速运行，但它们峰值性能的运行时间

采用部分重配置，设计人员能够有效地按时间段对 FPGA 进行划分，并

单独运行设计的各个组成部分。这种设计需要的器件尺寸要小得多，因

为不是设计的每个部分都需要一直运行。

图 5 只要可能，应将间歇使用的逻辑布置在单个时钟域

图 6 限制数据搬移；请勿将操作数在 FPGA 内搬移，仅搬移结果

FAE 讲堂


可能很短。为节省功耗，设计人员可以

利用部分重配置技术，为高性能设计添

加一个可切换的低功耗版本，而不是一

直处于最高性能下运行。在系统需要的

时候，可以切换回高性能设计。

这个原则也适用于 I/O 标准，特别

是在设计不是随时都需要高能耗接口的

时候。LVDS 需要较大的直流电供电，

因此不管其活动程度如何，均属于高能

耗接口。设计人员可采用部分重配置，

在设计不需要最高性能的时候，将 I/O

从 LVDS 切换到较低功耗的接口，比如

LVCMOS，然后在系统需要进行高速传

输的时候切换回 LVDS。

时序约束对低功耗设计来说也具

有重要意义。如果用户在温控环境中运

行，请注意可以降低器件的速率来满足

时序要求。请务必让器件的运行速率不

超过设定的时钟最高速率。让时钟的运

行速度更快并不会收到更好的设计效

果！一般来说，这样做会占用更多的架

构资源，因为这会减少资源共享，增加

逻辑/寄存器数量，增加布线，减少对

FPGA 专用功能的调用。所有这些都会

给动态功耗造成显著影响。

I/O 功耗已经成为总功耗的主要组

成部分。在部分设计中，有高达 50%

的功耗来自 I/O，尤其是在存储密集的

系统中。

可编程的转换速率和驱动强度能够

降低 I/O 驱动的动态功耗。虽然许多设

计人员青睐高速差分I/O 功能，但不是

每个接口都需要。像 HSLVDCI 这样的

标准能够节约大量 FPGA 间的通信功耗

以及低速存储器接口功耗。

所有的赛灵思 7 系列器件都能够

提供可编程的转换速率和驱动强度。赛

灵思 FPGA 采用数字控制阻抗 (DCI) 技术，可设置为三种状态。DCI 可以避免

在FPGA 向存储器写入的过程中产生端

接功耗，故器件只在读取的时候才产生

端接功耗。

7 系列器件包含针对 HSTL 和

SSTL 的用户可编程参考接收器功耗模

式。用户可以根据 I/O 的具体情况控制

这两种可编程功耗模式，使用户能够在

功耗和性能之间求得平衡，从而降低

DC 功耗。

收发器功耗

赛灵思 7 系列 FPGA 的收发器已

针对高性能和低抖动进行了优化。这些

收发器能够提供多种低功耗运行功能，

便于设计人员定制灵活的运行模式和尺

度，以实现功耗和性能的平衡。

在 7 系列 FPGA 中，共享 LC 锁相

环可降低大量功耗。对具有相同线速的

四通道设计（比如 XAUI）来说，可使

用一个四 PLL（而不是单通道 PLL）来

降低功耗。类似的，在某些情况下，由

于 PLL 在允许的范围内既能高速运行又

能低速运行，最好选择较低的运行范围

来降低功耗。

用户还可以选择启用单独的 TX/

RXPOWERDOWN 选项。在最低功耗模

式下可启动 PLL 功耗降低选项（比如在

经常用于 PCIe® 系统的 D3 状态下）。

设计过程的每个阶段

在编码前理解和运用节能设计技巧

是降低系统功耗的最重要的方法。在设

计过程的适当阶段使用各种赛灵思工具

也有助于帮助用户满足功耗规范，同时

为板级设计人员提供了关于选择必备电

源的数量、类型和规格的信息。赛灵思

7 系列 FPGA 通过采用工艺技术和架构

设计，实现了前所未有的能耗经济性。

本文中提到的许多技巧在 FPGA 功

耗优化培训课程中均有详细介绍。了解

赛灵思培训课程的详细内容，请访问：

www.xilinx.com/cn/training。

最新 CORE Generator 软件和

IP 核：

• AXI DataMover v3.00.a – 作为 AXI 基础架构 IP 的关键组成部分支持 AXI4 存储器映射域 AXI4Stream 域之间的高吞吐量数据传输。

• Chroma Resampler V1.0（AXI4 Lite）– 该 IP 在经过色度子采样后的YCbCr 格式 4:4:4、4:2:2和4:2:0 之间转换。它也支持逐行扫描和隔行视频。

• JESD204 v1.1 – 根据 Jedec JESD204B 标准设计，该标准描述了数据转换器和逻辑器件之间的串行数据接口和链路协议。该 IP 在单、双和四信道上支持高达 6.25 Gbps的线路速度。

• SRIO Gen 2, v1.2 – Serial RapidIO Gen 2.1 IP 软核支持 1、 2 和 4 信道宽度，线路速度高达 6.25 Gbps。

更多 IP 支持 AXI4 接口：赛灵思升级

了最新版本 CORE Generator IP 核，提供适用于生产要求的 AXI4 接口支持。一般说来，AXI4 接口

得到 Virtex-7、Kintex-7、Virtex-6 和 S p a r t a n - 6 器件系列上的最

新 IP 核的支持。早前适用于“生

产”版本的 IP 核仍支持 Virtex-6、Spartan-6、Virtex-5、Virtex-4 和 Spartan-3 器件器件系列上各自内核

的早期接口。如需了解 AXI IP 支持

信息详情，敬请参见：www. xilinx.com/cn/ipcenter/axi4_ip.htm。

如需了解13.3版本中已升级内核的完整

清单，敬请访问：

www.xilinx.com/cn/ipcen-ter/coregen/

updates_13_3.htm。

(上接第29页)

赛灵思工具和 IP 更新

精彩应用

252011年冬季刊

精彩应用

作者：Mike Santarini出版：Xcell 期刊

赛灵思公司

[email protected]

赛灵思 FPGA 引导机器人辅助外科手术系统Intuitive Surgical 采用达芬奇外科

手术系统掀起手术室革命风潮

252011年冬季刊

精彩应用


挽救生命，缩短康复时间，一切

为病患着想。这是医疗设备行

业最杰出的公司之一 Intuitive

Surgical 引以自豪的口号。该公司出品

的达芬奇机器人辅助外科手术系统已进

驻世界各地 1,500多家医院，成功地为患

者实施了数十万例外科手术。该系统是

先进微创手术 (MIS) 领域的顶级典范，

与传统的开放手术相比，患者的康复速

度要快得多。

Intuitive Surgical 自 2003 年起就

一直使用赛灵思 FPGA，并连续数年坚

持使用每一代新产品系列开发出更加先

进的达芬奇系统，拓宽其应用面。外科

医生现在将这套系统广泛用于泌尿、妇

产、心脏、胸部、头部和颈部外科手术

以及一般性的外科手术。

达芬奇系统由三个相互连接的主要

组件构成：外科医生控制台、患者推车

和视觉系统（图 1）。外科医生控制台

实质上是外科医生完成给定手术时使用

的操控台。与传统手术中外科医生站在

患者身旁弯腰数小时进行手术的情况不

同，使用达芬奇系统的医生舒适地坐在

控制台上用手指操作主控制器（图 2），

眼睛则盯着 3D 观察器。这里他们可以把

剖开的组织根据需要放大以利观察，同

时查看他们将用于手术的外科器械。

达芬奇系统能够将外科医生的手指

和腕部动作实时地转换成患者推车上方机

械臂的相应动作。外科医生操纵控制器来

控制安置在病患推车上方各个机械臂末端

的各种外科手术器械，包括手术刀、止血

钳、内窥镜、灼烧消毒及缝合针等。外科

医生可以舒适地在控制台上完成手术从初

步切开到最终缝合的每个关键步骤，而手

术助理则负责监护患者。

至于达芬奇系统的第三个组件——

视觉系统，采用的是高分辨率 3D 内窥镜

（一个顶部安装有摄像头和灯的管体）

和图像处理设备，能够为患者的剖开组

织提供逼真的图像。视觉系统还可为在

患者身边工作的整个手术助理小组和外

科助手提供手术区域的宽屏图像。

对医疗机构来说，达芬奇系统比传

统的手术流程体现出更为明显的优势。

它能够让外科医生采用微创手术法更加

舒适地完成复杂的手术，不易疲劳。另

外，该系统能够最大限度地减少手部颤

动，提升外科医生动作的准确程度，从

而能延长他们的职业生涯。

Intuitive Surgical 市场营销服务部

的高级总监 Chris Simmonds 表示，医

生们从该系统增强的可视化功能和系统

人机工程中获益非浅，称眼部疲劳度下

降，操作灵敏度和控制能力提高，特别

是对需要高倍数放大的精细手术动作。

Simmonds 表示：“一位医生对人坦

言，在使用达芬奇之前，他每天才能完

成两例输精管复通手术，现在一天能够

完成七到八例。”

达芬奇系统能够将外科医生的手指和腕部动作

实时地转换成患者推车上方机械臂的相应动

作。外科医生操纵控制器来控制各种外科

手术器械。

图 1 达芬奇系统能够改善外科手术的成效，加快患者康复。本图中，医生坐在双手术控制台上，分别位于图左和左偏中。视觉系统在右偏中，患者推车在右边。

精彩应用

272011年冬季刊

不过据 Intuitive Surgical 工程部

副总裁 Sal Brogna 表示，从该系统中

受益最大的还是患者。他表示：“在

Intuitive Surgical 员工心目中，患者至

上。帮助患者取得更好的手术结果并更

快地康复，是在我们的技术因素背后推

动公司决策和工程决策的理念因素。达

芬奇系统能够让外科医生完成更加精确

的手术，更加精确的手术就意味着更短

的康复时间。而住院时间越短，患者及

其家属就会越高兴。”

Intuitive Surgical 的机器人 MIS 系

统原本是在美国国防部高级研究计划局

(DARPA) 技术开发的启迪下研发的，当

时开发人员面临众多棘手的工程难题。

随着达芬奇的模型从 3D 标准定义立体

视觉演进到当今的双控制台多窗口 3D

高清 (HD) 系统，视频处理这一方面的

地位愈加重要。

Intuitive Surgical 的视频处理解决

方案首席设计工程师 David Powell 表

示：“在我们更新原始视频处理子系统

时，我们希望为外科医生提供多窗口视

频，这样他们就能够在手术的过程中监

控至关重要的患者数据。视频处理带宽

的增加让我们能够在提供手术区域视图

的同时，显示辅助视频源提供的数据。

例如，外科医生可以视线不离正在进行

中的手术，同时又能看到超声机或者心

肺机的即时反馈信息。”

Brogna 说，为给外科医生提供内

容丰富的浸入式视图，以便缩短手术过

程并改善手术成效，诸多技术难题蜂拥

而至，此外，该视频解决方案还必须满

足严格的安全性和可靠性要求。这就意

味着该系统需要灵活性、可升级性以及

不可或缺的可靠性。

所有这些要求导致 I n t u i t i v e

Surgical 最终在视频处理器设计中采用

了赛灵思 Virtex® FPGA，用于 2003 年

设计的第二代达芬奇外科手术系统。

Powel l 说：“我们最初选择赛灵思

Virtex-2 Pro FPGA，主要原因是看中

DSP 元件的流视频性能。赛灵思在该

器件中提供的嵌入式处理器是一种“附

加”特性。我们意识到我们可以利用它

来减少视频处理所需的基板面，但嵌入

式处理器并非我们选中赛灵思器件的根

本原因。”

Powell 说，但是最终，“对我们贯

穿整套系统的后续平台设计，赛灵思的

嵌入式处理器架构还是在很大程度上起

到了革命性的作用。”

FPGA 帮助引入模块化设计

在初次体验赛灵思 FPGA 后，

Intuitive Surgical 决定密切关注 FPGA

技术的发展，一旦最新型的赛灵思

FPGA 问世，就为其增添更加先进的系

统功能。Powell 说：“随着开始对赛灵

图 2 外科医生将手放在专用器械上（下图）。达芬奇系统能够实时计算它们的后续动作，并控制位于患者推车上的机器人手臂（见上图特写）。机器人手臂安置在患者准备接受手术

的区域上方。

精彩应用


思器件的使用，我们发现它是一个非常

好的设计平台——真的非常好。因此后

续平台已经发展到可在所有主要系统组

件中用上几十个赛灵思 FPGA 的程度。

今天，我们能在每个 FPGA 中纳入太多

的内容，几乎能把一个电路板装进一个

芯片。

虽然在最初几代达芬奇系统中采

用的 FPGA 设计里，Intuitive 的工程

师没有让嵌入式处理器一展身手，但

在最近两代产品中他们却让这种处理

器派上了用场。例如，Intuitive 在最近

两代达芬奇系统的许多模块中使用了

Virtex-5 FX FPGA 的 PowerPC® 硬处

理器和 MicroBlazeTM 软处理器。Powell

称，FPGA 模块/设计的重复利用在帮助

Intuitive Surgical 加快将达芬奇系统各

代新产品投放市场方面发挥了至关重要

的作用。

Powell 说：“我们采用统一的方

法，把许多功能标准化，这样就能快速

将这些模块构建到新设计中。我们配置

完第一块采用赛灵思 FPGA 的电路板并

使之运行耗时两个小时，此后配置完一

块电路板并使之运行却只需几分钟。这

样的结果是过去闻所未闻的。”

通过在后续几代系统中重复利用核

心并不断丰富各代全新 FPGA 的系统功

能，Intuitive Surgical已能让达芬奇系

统用上更加分布的架构，从而迈进模块

化时代。客户可以为单个系统添加多个

模块，来满足他们的具体需求。例如，

据 Brogna 介绍，Intuitive Surgical 借

助分布式架构才得以推出了双控制台的

达芬奇系统。Brogna 说：“现在两个

外科医生可以合作进行机器人辅助 MIS

手术，也可以将系统设置为培训教学模

式。采用赛灵思 FPGA 的模块化设计实

现了这一功能，它标志着我们产品线的

一个重大里程碑。”

B r o g n a 表示，在使用赛灵思

FPGA 之前，达芬奇组件之间的连接复

杂多变。模块之间通过四条“花园水

管”粗的大型电缆连接。由于手术室内

手术安排过程中的频繁操作，这四条电

缆磨损非常迅速。更值得关注的是，系

统组件必须作为一个整体单元进行生产

和维修。因此，如果一个组件需要维

修，则整套组件都不能使用。今天，所

有系统组件之间的连接已经标准化，

只需要设计一根单纤光缆。赛灵思的

硬件处理器模块和高速 DSP 片还提供

片上系统功能，支持在这种简化光纤

互连上传输八通道 1080i 全高清视频

(20Gbps)。这种全新互连技术显著地降

低了故障率。

Brogna 还表示，Intuitive Surgical

将模块化设计用于达芬奇系统后，还让

可制造性、可测试性、可靠性和可维

护性有了革命性的改进。Brogna 说：

“高度灵活且可定制的设计模块促使我

们以多种新方式考虑方方面面。我们现

在的重点是模块和插卡。现在甚至连制

造部门都不再谈及发运系统了，他们都

改口说插卡。这样我们在生产测试产品

以及在现场维护系统时，获得了难以置

信的敏捷性和有效性。”

可编程能力还意味着简化的更新。

Brogna 表示，Intuitive Surgical 不再需

要更换模块或者子系统，而是通过现场

固件升级的方式增加新功能或者增强现

有功能。服务团队也能够跨越系统中的

所有处理器快速查询一致性，以便改善

进程控制，确保系统得到理想的配置，

能够用于外科手术。

Powell 还指出，密切与赛灵思技

术人员、销售人员和高管合作是成功的

又一关键。他说：“我们现在熟知赛灵

思器件的发展历程和未来发展趋势，

这对我们以与众不同的方式改善手术效

果，挽救诸多生命确实大有帮助。一切

均应以患者为出发点。我们每天都听到

有人说某种新手术如何改写了他们的命

运，或者如何挽救了他们的生命。正是

在这种激励下，我们力争提供最优秀的

技术。”

欲了解关于达芬奇系统的更

多详情，敬请访问：h t t p : / / w w w.

intuitivesurgical.com/。

通过在连续的系统中重用核，以及在新一代的FPGA中添加功能，

Intuitive系统已经进入到了一个更加分布式的架构。客户可以通过添加

模块来满足他们的特殊需求。

292011年秋季刊

号外！号外！

赛灵思工具和 IP 更新赛灵思正在不断改进其产品、IP 核和设计工具，努力帮助设计人员提高工作效率。我们在此汇报旗舰 FPGA 开发环境 ISE® 设计

套件以及赛灵思 IP 核的最新升级情况。通过产品升级，ISE 设计套件的逻辑、嵌入式和 DSP 三大版本将得到显著改进并新增一

些新特性。保持 ISE 及时更新升级是确保最佳设计结果的简单方式。2011 年 10 月 25 日，赛灵思将发布 ISE 13.3 设计套件，您

可从赛灵思下载中心下载（www.xilinx.com/cn/download）。如需了解 ISE 的最新信息或下载其 30 天免费评估版，敬请访问：

www.xilinx.com/cn/ise。

Documentation Navigator这款新应用能帮助用户在统一位置查看并管理

赛灵思设计文档（软硬件和 IP 核等），并提

供简便易用的下载、搜索和通知特性。如欲

试用该新版赛灵思 Documentation Navigator（现为开放式测试版本），敬请访问：www.xilinx.com/cn/support。

ISE 设计套件：逻辑版本

Front-to-Back FPGA 逻辑设计

最新版本编号：13.3；最新发布日期：2011 年 10 月；前一版本：13.2；

更新亮点：

PlanAheadTM 和 IP 核经过重新设计的全新用

户界面，不仅提高了不同片上系统设计团队的

工作效率，而且更趋近于面向 Spartan®-6、Virtex®-6 和 7 系列 FPGA 的真正即插即用 IP。

PlanAhead 设计和分析工具：

赛灵思进一步增强了图形用户界面 (GUI) 功能，能根据 RTL 源在 HDL 的例化情况分层显

示。该特性使用户能可视化看到哪些源文件包

含顶级逻辑分层结构，对源数量很大、项目集

成其他开发商或IP 厂商的大量逻辑的情况非

常有用。

团队设计：这是 ISE 13 设计套件的新增特

性，该团队设计方法采用 PlanAhead，可支

持并行工作，从而让多名工程师能够对同一

项目同时开展工作。团队设计流程建立在 ISE 12 设计套件推出的设计保存功能基础之上，

可提供额外的功能，能让您根据设计已完成部

分，锁定早期实现结果，而无需等待设计团队

其他人员的工作进度。这种新功能可加快时序

收敛，并有助于设计的其他部分的时序保存，

从而提高整体工作效率，减少了设计迭代。

赛灵思功耗估计器 (XPE) 与功耗分析器 (XPA)：这两款工具现具有更快的设计估算

功能、存储器接口与收发器增强特性，以及专

用配置窗口，从而可提供更精确的功耗估算。

ISE 设计套件: 嵌入式版本

一体化的嵌入式设计解决方案最新版本编号：13.3；最新发布日期：2011 年 10 月；之前版本：13.2；

更新亮点：

ISE 设计套件的所有版本均包含“逻辑版本”

的所有上述增强特性。而以下增强特性为“嵌

入式版本”所特有。

赛灵思 Platform Studio (XPS)：13.3 版

本具有许多增强特性，其中包括 Base System Builder 采用新式双页设置，可简化配置工

作。XPS 现可支持 KintexTMKC705 平台，

并能处理基于单/双 AXI4 的 MicroBlazeTM 设计。此外，“创建/导入 IP”向导目前也可支

持 AXI4、AXI4-Lite 和 AXI4-Stream IP。

S D K 增强特性：赛最新版可支持

MicroBlaze v8.20，现在 AXI 缓存互联可提供 512 位的数据宽度。赛灵思将软件开发套件升

级到 Eclipse 3.6.2 和 CDT 7.0.2 版本，为开

源平台提供了稳定性和增强特性。

IP 增强特性：该13.3 版本提供了新的 AXI

PCIe® 和 AXI QuadSPI 内核。此外，赛灵思

还改善了 AXI v6 DDRx 的读写仲裁功能。

EDK 整体增强特性：嵌入式开发套件

现确保 Project Navigator、Xilinx Platform Studio(XPS)和 SDK 都实现一致性的 SDL 工作区选择行为。

ISE 设计套件：DSP 版本

面向高性能 DSP 系统最新版本编号：13.3；最新发布日期：2011 年 10 月；

之前版本：13.2；

新版亮点：

ISE 设计套件的所有版本均包含“逻辑版本”

上述所列增强特性。ISE 13.3：DSP 版本具

有如下特有功能：提供单双和定制浮点精度支

持，并增加了对 ArtixTM-7 和 VirtexTM-7 的支

持。此外，赛灵思还增加一项功能，可生成支

持 System Generator 设计的 PlanAhead 项目，并对 VDMA4.0 和 MATLAB® 2001a 提供

了生产支持。

此外，CIC Compiler 还提供 24 比特输入位

宽，而最新 Divider Generator 则具有支持 64 比特的运算元。

赛灵思 IP 更新IP 名称：ISE IP 13.3 版；

IP 类型：全部

目标应用：赛灵思开发了 IP 核并与第三方

IP 提供商合作，共同帮助客户缩短产品上市

时间。赛灵思 FPGA 与 IP 核的强大组合提供

了类似于 ASSP 的功能和性能，同时实现了

专用标准部件所无法企及的灵活性优势。

最新版本编号：13.3；最新发布日期：2011 年 10 月；

安装指令： www.xilinx.com/cn/ipcenter/coregen/ip _update_install_instructions.htm

本版全部 IP 列表：

www.xilinx.com/cn/ipcenter/core-gen/13_3_datasheets.htm

更新亮点：

从 13.1 版本开始，所有 ISE CORE GeneratorTM IP 都支持 Kintex-7 和 Virtex-7 器件。最新 CORE Generator IP 核提供 Artix-7 和 Virtex-7 XT 支持，但 13.3 版本仅提供有限

的 Artix-7 和Virtex-7 XT 系列器件支持。支持 Artix-7 和 Virtex-7 XT 的系列内核只为这两个

系列的器件提供 beta 支持。

号外！号外！

（下转第24页)

292011年冬季刊


欢迎各位作出反馈讯息和建议

传真 : (852)2429-6772电邮 : [email protected]

赛灵思中国 /香港代表处

更多的联络点请查询 : www.xilinx.com/cn 技术支持 : www.xilinx.com/cn/support

电话 : (852)2424 5200电话 : (86)21-3318 4788电话 : (86)755-8237 0015

传真 : (852)2494 7159传真 : (86)21-6340 6108传真 : (86)755-2583 0986

电邮 : [email protected]电邮 : [email protected]电邮 : [email protected]

香港

上海

深圳

赛灵思客户喜获首批Zynq-7000 器件 — 全球第一款可扩展处理平台

赛灵思在 ARM 欧洲技术大会上演示其首款 Zynq 芯片应用，客户利用早期试用工具和仿真平台开发的应用将移植到该器件上

2011 年 12 月 9 日，中国北京 —全球可编程平台领导厂商赛灵思公司 (Xilinx, Inc. (NASDAQ:XLNX) ) 今天宣布向客户交付首批 ZynqTM-7000 可扩展处理平台 (EPP)，这是其完整嵌入式处理平台发展战略的一个重大里程碑，率先为开发人员提供堪比 ASIC 的性

能与功耗，FPGA 的灵活性以及微处理器的可编程性。采用 Zynq-7000 EPP 仿真平台、赛灵思早期试用硬件工具以及 ARM ARM® Connected Community 社区支持的标准软件工具进行系统开发的客户，现在就可以将有关应用移植到这些器件上，并开始下一阶段

的产品开发工作。

赛灵思处理平台副总裁 Lawrence Getman 表示：“自我们于 2010 年 4 月首次推出可扩展处理平台计划以来，看到早期试用客户

充分利用这一器件所取得的成就，以及今天可以马上在我们的首批器件上应用其系统，我们对此感到非常振奋。通过这一新型的单

芯片系统 , 赛灵思将使得他们在研发和新产品导入方面，满足极高系统性能、灵活性和集成度的需求，并从上市时间上大大超越竞

争对手”

针对那些需要支持高性能及实时运算应用的系统而言，Zynq-7000 EPP 提供了传统处理解决方案所无法实现的性能水平。仿真

平台、硬件开发工具、开源 Linux 支持和近期宣布的与 Cadence 设计系统公司联合开发的可扩展虚拟平台均有助于推进 Zynq-7000 EPP 系统的开发与实现。随着可支持的操作系统越来越多，嵌入式工具和软件开发解决方案生态系统也将不断扩展。

依元素科技培训课程时间表 2012/1 至 2012/3

有关报名注意事项：请联系：北京: 电话: 010-8275-7632 传真:010-8275-6745 深圳: 电话: 0755-86186718 传真:0086-755-86186700 邮件: [email protected] 地址: 北京市海淀区上地信息路15号金融科贸大厦307室网址: www.e-elements.com

资讯脉搏

缘隆有限公司

• 北京电话：(010) 6266 9572• 成都电话：(028) 8509 1261• 上海电话：(021) 6439 2771• 深圳电话：(0755) 8253 7068• 南京电话：(025) 8638 0963

赛灵思中国销售代表

赛灵思中国／香港地区分销商

安富利电子元器件部

科通数字技术部

• 香港电话： (852) 2176 5388• 北京电话：(010) 8206 2488• 成都电话： (028) 8652 8262• 上海电话： (021) 3367 8330• 深圳电话： (0755) 8378 2949

• 香港电话： (852) 2730 1054• 北京电话：(010) 5172 6678• 成都电话： (028) 8513 1563• 上海电话： (021) 5169 6680• 深圳电话： (0755) 2698 8221

培训课程培训时间 1月 2月 3月使用 7 系列产品进行设计 2 天 4-5日深圳 1-2日上海 1-2日北京

使用 PlanAhead 分析与设计工具进行高级设计 2 天 7-8日上海 1-2 日北京

Xilinx 部分重配置工具和技术 2 天 9-10日北京 22-23日成都 12-13日深圳

利用 Spartan-6 和 Virtex-6 系列进行设计 3 天9-10日深圳 7-9日上海 5-7日北京

11-12日北京 13-15日成都 12-14日上海 Xilinx FPGA 的基本 DSP 实现技术 2 天 16-17日上海 27-28日北京

使用 PlanAhead 分析与设计工具进行基本设计 2 天 21-22日武汉 27-28日北京

FPGA 设计基础 1 天 6日深圳 16 日西安 16日武汉

面向性能的设计 2 天 4-5日成都 1-2日北京 5-6日上海

Xilinx FPGA 的信号完整性和电路板设计 3天 18-19日上海 20-22日成都 19-21日北京

高级 FPGA 设计 2 天 11-12日深圳 22-23日上海 6-7日深圳

利用 Virtex-5 FPGA 系列进行设计 1 天 17日深圳　

设计LogiCORE PCI Express 系统 2 天 30-31日深圳 14-15日北京 15-16日上海

利用 VHDL 进行设计 22-23日深圳

嵌入式系统开发 2 天 16-17日北京 15-16日上海 20-21日北京

利用System Generator 进行DSP设计 2 天 8-9日西安

利用以太网 MAC 控制器进行设计 2天 5-6日成都 20-21日深圳 6-7日成都

利用千兆位级串行 I/O 进行设计 3 天 21-23日北京 26-28日上海

利用 ChipScope Pro 调试和验证 1天 17日北京 20日上海 26日深圳

嵌入式系统软件开发 2 天 30-31日上海 27-28日成都 5--6日武汉

嵌入式开放源码 Linux 开发 2天 13-14日武汉 29-30日武汉

Xilinx在线培训课程（WebEx) 培训课程 1月 2月 3月

在线老师现场授课(学员于线上学习，老师提供最新的实验项目的

现场操作和答疑并进行专业辅导，直接带给学员FPGA项目设计的

亲身体验。

FPGA 设计基础（免费） 5日 7日 19 日

面向性能的设计 9-10日 20-21日 15-16日

线上授课老师都获Xilinx认证，并具有丰富的 FPGA系统项目经验。

高级 FPGA 设计 11-12日 22-23日 27-28日

现场的课堂教学和实验 PlanAhead 分析与设计 16-17日 13-14日 22-23日答疑（Q&A)(现场解答学员在学习和实验中遇到的问题) 利用 Spartan-6系列进行设计 18-19日 8-9日 26-27日

2011年春季刊

随着处理能力的不断增强，从事医疗设备研究工作的科研人员正在迅速开发出各种可以更有效治疗多种疾病的创新疗

法，以减轻患者的痛苦。商业现成 (COTS) 硬件与 FPGA 技术以及灵活的集成平台相结合，可以帮助这些科研人员更加迅速

地开发出原型成像系统，并不断向市场推出新产品。

DC/DC 转换器的设计采用四种主要拓扑之一：降压（步降）、升压（步进）、反相（将正输入转变为负输出）和

SEPIC（单端初级电感转换器）。SEPIC器件可保持持续的输出电压，并能根据环境要求对输入电压步进或步降，因此是电

池供电应用常见的选择。

现已提供可支持开关模式 DC/DC 调节器数字控制的低成本 FPGA 和 ADC。

作者 ■ Adam P. Taylor EADS Astrium 作者 ■Andrew R. Porter EADS Astrium

如何用 FPGA 构建更出色的 DC/DC 调节器

全文刊登在www.xilinx.com/cn/xcell42

传统的电信网络从根本上说是为传输语音而配置的，比如电话业务。互联网业务就是利用这种早期平台传输的。目前，

设计人员正在开发下一代网络 (NGN)，用于同时传输数据、语音和视频，在降低总运营成本的同时提供透明度和可扩展性。

NGN被视为从分离的网络基础设施到统一的多业务、高安全、基于分组的网络的逻辑演进，可实现电子通信解决方案服务质

量(QoS)并为最终用户提供使用便利。大型电信提供商已开始向 NGN 转型，准备建设新的基于分组的以太网核心基础设施。

这个过程将逐渐替换和升级网络，为新的和现有的服务解决方案提供支持。

这种升级带来了许多技术挑战，其中最主要的是网络的同步要求。像 Sonet 和 SDH 这样的传统电路交换网络会在整个

网络中分配高质量的时钟与时序源，但以太网并不需要如此严格的时钟分层。但是采用某种方式实现各个网络的同步正日益

成为对电信运营商的一个具体要求。实现 NGN 的关键挑战就是要规范、实现并部署一种能够让所有现有网络和新建网络协调

工作的高质量解决方案。时间和频率的对齐，也称为同步，对确保通过融合网络传输的无线、语音、实时视频和数据应用的

QoS至关重要。将同步与时序功能和其他硬件共同嵌入 FPGA 中，可以开发出一种低成本、高灵活性的可编程解决方案，能

够满足最为严格的电信设备标准。

用 FPGA 同步下一代网络

作者 ■ Dejan Habic

FPGA器件的灵活性和特性集使之非常适用于设计先进网络设备中的时序和同步子系统。

技术长廊

存储器分段与数据交换策略已成为紧密结合主/从多处理器系统实现的主流。

作者 ■ Heiko Wilken 作者■ Marco Kirschke 作者■ Bernd Scharz

用双 Microblaze Xilkernel 系统监控汽车应用

基于软核处理器的多处理器片上系统 (MPSoC) 设计正日益风靡于嵌入式系统设计领域。为了向多个处理器提供始终

一致的数据，存储器区域的架构与管理已成为设计工作非常重要的组成部分。在原型汽车应用中，我们准备构建一个双

MicroBlazeTM 系统，用于在两个 MicroBlaze 上支持赛灵思嵌入式处理器内核 Xilernel。

在开发机动车原型转向系统平台前，我们根据赛灵思技术规范、参考设计和双处理器设计套件，研究出一套通用的设计

工作流程。该设计结合了多重功能，比如防碰撞、行车道探测和自动停放。Xilkernel 设计提供了诸如 Posix 线程这样的库函

数，可重复利用基于 QNX 的防碰撞应用以及对该应用进行分割。



312011年冬季刊

www.xilinx.com/cn/7

性能加倍，功耗减半

2011 WINNER

赛灵思7系列FPGA，无需妥协的创新！

全新7系列FPGA器件建立在行业唯一的统一架构之上，为您的创意变成现实提供充分灵活的选择！

满足您提高性能、降低功耗的设计需求；利用新一代ISE设计套件为您的开发加速！

创新，用您需要的性能和灵活性，引领世界不断进步！

超低功耗超低成本超值价格超高性能超高系统性能超大容量

©2011 Xilinx, Inc版权所有。 XILINX、Xilinx商标、Artix、ISE、Kintex、Virtex,及其它品牌设计均为Xilinx , Inc (美国赛灵思公司).在美国及其它国家的商标。所有其它商标均为各自拥有者的财产。

赛灵思公司香港电话: (852)2424 5200 上海电话: (021)5131 6060 深圳电话: (0755)8660 6588传真: (021)5198 1020 传真: (0755)2583 0986传真: (852)2494 7159

电话电话电话电话

电话

中国销售代表缘隆有限公司

(010) 6266 9572(028) 8509 1261(021) 6439 2771(0755) 8253 7068(025) 8638 0963

北京成都上海深圳南京


电话 (0755) 2698 8221(010) 5172 6678(021) 5169 6680(027) 8769 0655(028) 8513 1563

深圳北京上海武汉成都


电话

安富利电子元件部中国/香港地区代理商

科通数字技术部中国/香港地区代理商

香港北京成都上海深圳

(852) 2176 5388(010) 8206 2488(028) 8652 8262(021) 3367 8387(0755) 8378 1886

赛灵思中国通讯第42期-赛灵思推出采用堆叠硅片互联技术的世界最大容量...

Documents