2024年4月20日发(作者:melogin手机登录入口的浏览器)
计算机研究与发展
Journal
of
Computer
Research
and
Development
DOI
:
10.
7544/issnl000-1239.
2021.20210189
58(6)
:
1234
1237,
2021
一种自主设计的面向
E
级高性能计算的异构融合加速器
刘胜卢凯郭阳刘仲陈海燕雷元武孙海燕杨乾明陈小文陈胜刚刘必慰鲁建壮
(国防科技大学计算机学院
长沙
410073)
(liusheng8
3
@
nudt.
edu.
cn)
A
Self-Designed
Heterogeneous
Accelerator
for
Exascale
High
Performance
Computing
Liu
Sheng
,
Lu
Kai
,
Guo
Yang
,
Liu
Zhong
,
Chen
Haiyan,
Lei
Yuanwu
,
Sun
Haiyan,
Yang
Qianming
,
Chen
Xiaowen,
Chen
Shenggang,
Liu
Biwei,
and
Lu
Jianzhuang
{College
of
Computer
Science
and
Technology
,
National
University
of
Defense
Technology
,
Changsha
410073)
Abstract
High
performance
computing
(HPC)
is
one
of
the
basic
fields
to
promote
the
development
of
science
and
technology.
Exascale
HPC
era,
recognized
as
“
the
next
crown
of
supercomputer",
is
coming.
The
accelerator
field
for
exascale
HPC
has
gradually
developed
into
the
arena
of
the
most
high-end
chips
in
the
world.
The
international
famous
companies
,
such
as
AMD,NVIDIA
and
Intel
,
have
occupied
this
field
for
several
years.
As
one
of
the
organizations
which
independently
designed
processors
in
China,
National
University
of
Defense
Technology
(.NUDT)
has
always
been
a
strong
competitor
in
HPC
accelerator
field.
This
paper
introduces
an
accelerator
for
exascale
HPC
which
is
self-designed
by
NUDT.
It
adopts
a
heterogeneous
architecture
with
CPU
and
general
purpose
digital
signal processor
(
GPDSP
).
It
has
the
characteristics
of
high
performance,
high
efficiency
and
high
programmability
,
and
is
expected
to
be
the
key
computing
chip
of
our
new
exascale
supercomputer
system.
Key
words
high
performance
computing
(
HPC
)
;
accelerator
;
heterogeneous
architecture
;
sei--
designed
;
highe
ficiency
摘
要
高性能计算
(high
performance
computing
,
HPC)
是推动科学技术发展的基础性领域之一
,
当
前
,
作为超级计算机系统
“
下一个明珠
”
的
E
级高性能计算时代已经来临.面向
E
级高性能计算的加速
器领域成为了全球高端芯片的竞技场.国际上
,
AMD
、
英伟达和英特尔公司已经占据这一领域多年.作为
国内最早开始自主处理器设计的优势单位之一
,
国防科技大学一直以来都是高性能加速器领域强有力
的竞争者.主要对国防科技大学自主设计的面向
E
级高性能计算的加速器芯片进行介绍
,
该芯片采用了
CPU+GPDSP
的异构融合架构
,
具备高性能
、
高效能和高可编程性的特点
,
有望成为新一代
E
级超算
系统的核心计算芯片
.
关键词
高性能计算
;
加速器
;
异构融合体系结构
;
自主设计
;
高效能
中图法分类号
TP33
;
TN47
高性
能计算
(
high
performance
computing,
HPC)
是推动科学技术发展的基础性领域之一
,
被
器领域逐渐发展成为全球最高端芯片的竞技场.由
AMD
公司于
2020
年
11
月推出的
INSTINCT
TM
MI100
加速器的双精度峰值计算能力已经突破
称为超级计算机的
“
下一个明珠
”
的
E
级高性能计
算时代已经悄然来临.面向
E
级高性能计算的加速
收稿日期
:
2021
—
03
—
09
;
修回日期
=2021
-
04
-
20
基金项目
:
国家重点研发计划项目
(2018YFB0204301
课题
1)
10TFLOPS
量级
,
达到
11.5TFLOPS,
典型功耗为
This
work
was
supported
by
the
National
Key
Research
and
Development
Program
of
China
(2018YFB0204301
sub-project
I)
.
刘
胜等
:
一种自主设计的面向
E
级高性能计算的异构融合加速器
1235
300
W[
1]
.
由英伟达公司于
2020
年
5
月推出的
A100
行
,
并针对应用进行了指令集级别的定制
,
提高了典
GPU
[]
,
其可编程部分的双精度浮点峰值计算能力
型应用的峰值运算能力和效能.每个
GPDSP_Cluster
为
9.7TFLOPS,
张量核
(
tensor
core
)
部分的双精度
包含
6
个
DSP
节点
(
每个
DSP
节点包含
4
个
DSP
核
)
.GPDSP_Cluster
内包含一个全局共享存储器
,
提供了片上高带宽的数据传输.还包含一个
HBM2
浮点峰值计算能力高达
19.5TFLOPS,
典型功耗为
400W.
根据报导
,
英特尔公司也将于
2021
年末甚至
更早推出代号为
Ponte
Vecchio
的
X
e
HPC
系列
GPU,
预计性能也将高达数十
TFLOPS
[]
.
转接桥和控制器
,
以支持片外高带宽数据传输.采用
了具备高带宽
、
支持优先权仲裁和
QoS
等多个特点
作为国内最早开始自主处理器设计的优势单位
的多级
CrossBar
(
CrossNet
)
片上网络结构
,
保证了
数据带宽的稳定发挥
.
之一
,
国防科技大学一直以来都是高性能加速器领
域强有力的竞争者.本文主要对国防科技大学自主
1.1
GPDSP
内核结构
设计的一款面向
E
级高性能计算的加速器进行介
绍.该芯片采用了
CPU
+
GPDSP
的异构融合架构
,
兼顾高性能
、
高效能和高可编程性的特点
,
双精度浮
点峰值性能可达
10TFLOPS
以上
,
典型应用情况下
效能在
50GFLOPS/W
左右,
有望成为新一代
E
级
超算系统的核心计算芯片
•
1
体系结构
该芯片采用了异构融合架构
,
如图
1
所示.由多
核
CPU
和
4
个
GPDSP_Cluster
五部分组成.多核
CPU
包含
32
个
FT-C662
CPU
内核
(
兼容
ARM
指令
集
)
,
每个
GPDSP_Cluster
包含
24
个自定义指令集
的
FT-M64DSP
核.作为芯片的主控部分
,
多核
CPU
可以访问和调用所有的资源
,
4
个
GPDSP_Cluster
相互独立.该芯片将主控部分和运算部分的互连在
片内解决
,
从而为两者间的通信提供高数据带宽
•
GPDSP_Cluster
从标
、
向量并行的
64
b
单核结
构
、
可扩展多核结构等方面实施了全方位
、
多层次并
行优化
,
充分开发应用的指令级
、
数据级
、
任务级并
Fig.
1
Architecture
of
the
chip
图
1
芯片体系结构
DSP
内核基于自主知识产权的指令集设计.如
图
2
所示
,
采用了超长指令字
(
very
long
instruction
word,
VLIW
)
技术和标向量协同融合的结构.向量
部件由
16
个同构的
VPE
阵列组成
,
每个
VPE
内部
包含
3
个乘加单元.指控单元
(
LIP/Fetch/Dispatch)
同时向标量单兀
(
scalar
unit
)
和向量单元
(
vector
unit
)
派发指令
,
16
个
VPE
采用
SIMD
的方式同时
执行相同的向量指令.标量部件和向量部件各自有
对应本地的局部存储器:标量存储器和阵列存储器.
DSP
内核拥有一个的
DMA,
支持灵活高效的数据
传输方式
(
如点对点
、
广播
、
分段
>
SuperGather
等
)
以充分适应不同的应用需求
•
Fig.
2
Structure
of
DSP
Core
图
2
DSP
内核结构图
1.2
存储层次
为了简化存储管理硬件逻辑设计
,
多核
CPU
内
部支持硬件
Cache
一致性
(
包含
16
MB
的
L2Cache
)
,
GPDSP_Cluster
支持软件管理的垂直存储一致性.
面向高性能计算以及
AI
等应用需求,提出了一种多
层次协同共享存储结构
,
将加速器
GPDSP
核内的
私有存储
(
近
80
MB,
峰值带宽
98TB/s
)
、
全局共享
存储
(
共
24
MB,
峰值带宽
1.2
TB/s
)
、
HBM
存储
(
4
个
HBM2,
峰值带宽
1.2TB/s,
容量
32
GB
)
三级
存储架构
,
通过高速
DMA
和片上网络连接
,
提供了
高带宽的数据传输和核间数据交互能力
.
1236
计算机研究与发展
2021,
58(6)
1.3
先进
、
灵活的
PCIE4.0
接口
n
)
n
为矩阵规模的系数.如图
4
所示
,
DGEMM
算
本加速器集成了
2
个
PCIE4.0
接口.每个
PCIE
法在系统的实测计算效率方面平均为
94%.
接口除了支持
4.0
规范外
,
还兼容
3.0,2.0
规范.每
个接口为
XI
6
设计
,
支持
EP
和
RC
模式
.
2
软件开发环境
针对异构融合架构设计并实现了一套支持异构
多核的类
CUDA
开发调试运行环境.支持用户在同
一个界面中进行多核
CPU
和
GPDSP
异构程序的
Fig.
4
Efficiency
of
DGEMM
调试
,
支持用户在同一个工程甚至在一个文件中编
写
CPU
和
GPDSP
异构程序
.
如图
3
所示
,
该芯片软件工具链包含了异构编
译器
、
资源管理库
、
异构运行时库
、
异构设备库等
,
方
便用户快速开发面向典型领域的高性能应用.
GPDSP
编译器针对多核
、
超长指令字
、
向量等特点
进行了一系列优化
,
具体包括标量和向量指令级并
行优化
、
SIMD
优化
、
循环展开和软流水优化
、
跳转
延迟槽调度优化
、
寄存器分配优化
、谓词优化等
•
Fig.
3
Structure
of
the
software
chain
图
3
软件工具链结构图
为了发挥加速器的计算能力和易用性
,
提供了
面向用户核心级代码的线性汇编开发工具
,
能够在
大幅提高核心代码效率的同时降低程序优化难度.
此外还提供与结构相匹配的手工汇编优化算法库
,
手工汇编优化后的算法库比普通
C
语言实现的库
函数效率能够提高一个数量级以上.目前已经完成
了
Linack,HPCG,CNN
等算法核心算法库的开发
.
3
算法效率评估
1)
双精度通用矩阵乘法
(
double
general
matrix
matrix
multiplication,
DGEMM
)
算法.采用
DGEMM
算法(执行
C
f
=
A
X
B
+
C
)
对系统的计算效率进行评
测
,
其中矩阵
A
的规模为
24576X512,
矩阵
B
的规模
为
512X(1152X
n
),
矩阵
C
的规模为
24
576X(1
152
X
图
4
DGEMM
算法的效率
2)
卷积神经网络模型算法.在加速器上实现了
深度卷积神经网络模型
AlexNet.
表
1
对比了本加
速器与其他
5
种高性能
GPU
⑷实现
AlexNet
推理
的计算性能•本加速器在深度卷积神经网络推理计
算方面能够达到
15108
帧
/
秒,具有较高的计算性能
.
Table
1
Comparison
of
Our
Accelerator
and
Other
GPUs
表
1
本加速器与其它GPU
的性能对比
处理器
AlexNet
推理性能
/(
帧
-
秒
T)
NVIDIA
V100
8
700
NVIDIA
T42
600
NVIDIA
P4
2
600
GTX
1080
Ti3
712
GTX
1080
2285
本加速器
15108
4
小
结
本文主要介绍了国防科技大学自主设计的面向
E
级高性能计算的加速器芯片.目前该芯片已经顺
利流片和量产
,
下一步将围绕该芯片进行工具链和
应用开发进行更深入的工作
•
作者贡献声明
:
卢凯
(
芯片架构设计
)
、
郭阳
(
芯
片结构设计
)
、
刘仲
(
芯片算法评估
)
三人对本文具有
同等贡献,均为通信作者
•
参
考
文
献
AMD.
AMD
INSTINCT
tm
MI100
ACCELERATOR
World's
Fastest
HPC
GPU
[OL].
[2021-03-01].
.
com/system/
files/documents/instinct-mil
00-brochure.
[2]
NVIDIA.
NVIDIA
A100
TENSOR
CORE
GPU
UNPRE
CEDENTED
SCALE
AT
EVERY
SCALE,
The
Most
Powerful
Compute
Platform
for
Every
Workload
[OL].
[2021
03-01].
https
:
//www
.
nvidia.
cn/content/dam/en-zz/Solutions/
Data-Center/a100/pdf/a100-80gb-datasheet-update-nvidia-us-
刘
胜等
:
一种自主设计的面向
E
级高性能计算的异构融合加速器
WIKICHIP.
SC19
:
Aurora
Supercomputer
To
Feature
Intel
First
Exascale
Xe
GPGPU
,
7
nm
Ponte
Vecchio
[OL].
[021
03-01
].
https
:
//fuse.
wiki
chip.
org/news/3029/scl9-aurora-
1237
Sun
Haiyan
,
born
in
1
976.
Phi),
associate
professor.
Her
main
research
interests
includecomputerarchtecture
,
complerand
s
uper
compu
ter-to-feature-in
tel-first-exascale-xe-gpgpu-7
nm-
programming
environment.
ponte-vecchio/
[]
DELL.
INFERENCE
using
the
NVIDIA
T4
[OL].
[021-03
01]
.
https
:
//www.
dell.
com/
support/kbdoc/en-iis/000143470
/
inference-using-the-nvidia-t4
孙海燕
,
1
976
年生.博士
,
副研究员.主要研究
方向为计算机体系结构
、
编译
、
编程环境
.
Yang
Qianming
,
born
in
1984
PhD,
assistant
Liu
Sheng
,
born
in
1984.
Phi),
associate
professor.
His
main
research
interests
include
professor.
His
main
research
interests
include
computer
micro
archtecture
,
chip
memory
processor
micro
architecture
,
chip
memory
system
design
and
etc.
刘
胜
,
1984
年生.博士
,
副
研究员.主要研究
方向为处理器微体系结构
、
芯片存储系统设
计等
.
Lu
Kai
,
born
in
1973.
PhD.
Professor.
His
main
research
interests
include
parallel
programming
,
operatngsystemandsecurty.
卢
凯
,
1973
年生.博士
,教授.主要研究方向
为并行编程技术
、操作系统和安全性研究
.
Guo
Yang
,
born
in
1971.
Phi).
Professor.
His
main
research
interests
include
VLSI
and
processorarchtecture.
郭阳
,
1971
年生.博士
,
研究员.主要研究方
向为超大规模集成电路和处理器体系结构
.
Liu
Zhong
,
born
in
1971.
Phi).
Professor.
His
main
research
interests
include
high
perfor
mance
computng
,
computer
archtecture
and
etc.
刘仲
,
1971
年生.博士
,
研
究员.主要研究方
向为高性能计算
、
计算机体系结构等
.
Chen
Haiyan
,
born
in
1
967.
Professor.
Her
main
research
interests
include
microprocessor
architecture
,
VLSI
design
and
etc.
陈海燕
,
1967
年生.研究员.主要研究方向为微
处理器体系结构
、
超大规模集成电路设计等
.
Lei
Yuanwu
,
born
in
1982.
Phi),
assistant
professor.
His
main
research
interests
include
computer
archtecture
,
mcroprocessor
desgn
etc.
雷兀武
,
1982
年生.博士
,
助理研究员.主要研
究方向为计算机体系结构
、
微处理器设计等
.
system
design.
杨乾明
,
1984
年生.博士
,
助理研究员.主要研
究方向为计算机微体系结构
、
芯片存储系统
设计
.
Chen
Xiaowen
,
born
in
1982.
Phi),
associate
professor.
His
main
research
interests
include
high
performance
microprocessor
architecture
,
NoC
and
etc.
陈小文
,
1982
年生.博士
,
副研究员.主要研
究方向为高性能微处理器体系结构
、
片上网
络等
.
Chen
Shenggang
,
born
in
1981.
Phi),
associate
professor.
His
main
research
interests
include
computerarchtecture
,
highperformancemicro-
processordesign.
陈胜刚
,
1981
年生.博士
,
副研究员.主要研
究方向为计算机体系结构
、
高性能微处理器
设计
.
Liu
Biwei
,
born
in
1
979.
Phi),
associate
professor.
His
main
research
interests
includehigh
performanceintegraton
circut
designandetc.
刘必慰
,
1
979
年生.博士
,
副研究员.主要研究
方向为高性能集成电路设计等
.
Lu
Jianzhuang
,
born
in
1977.
PhD,
professor.
His
main
research
interests
include
high
performance
microprocessor
architecture
,
on-chip
memory
,
VLSI
design
and
etc.
鲁建壮
,
1
977
年生.博士
,
研
究员.主要研究方
向为高性能微处理器体系结构
、
片上存储
、
VLSI
设计等
.
发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1713558103a2272800.html
评论列表(0条)