一种自主设计的面向E级高性能计算的异构融合加速器

一种自主设计的面向E级高性能计算的异构融合加速器


2024年4月20日发(作者:melogin手机登录入口的浏览器)

计算机研究与发展

Journal

of

Computer

Research

and

Development

DOI

10.

7544/issnl000-1239.

2021.20210189

58(6)

:

1234

1237,

2021

一种自主设计的面向

E

级高性能计算的异构融合加速器

刘胜卢凯郭阳刘仲陈海燕雷元武孙海燕杨乾明陈小文陈胜刚刘必慰鲁建壮

(国防科技大学计算机学院

长沙

410073)

(liusheng8

3

@

nudt.

edu.

cn)

A

Self-Designed

Heterogeneous

Accelerator

for

Exascale

High

Performance

Computing

Liu

Sheng

,

Lu

Kai

,

Guo

Yang

,

Liu

Zhong

,

Chen

Haiyan,

Lei

Yuanwu

,

Sun

Haiyan,

Yang

Qianming

,

Chen

Xiaowen,

Chen

Shenggang,

Liu

Biwei,

and

Lu

Jianzhuang

{College

of

Computer

Science

and

Technology

,

National

University

of

Defense

Technology

,

Changsha

410073)

Abstract

High

performance

computing

(HPC)

is

one

of

the

basic

fields

to

promote

the

development

of

science

and

technology.

Exascale

HPC

era,

recognized

as

the

next

crown

of

supercomputer",

is

coming.

The

accelerator

field

for

exascale

HPC

has

gradually

developed

into

the

arena

of

the

most

high-end

chips

in

the

world.

The

international

famous

companies

,

such

as

AMD,NVIDIA

and

Intel

,

have

occupied

this

field

for

several

years.

As

one

of

the

organizations

which

independently

designed

processors

in

China,

National

University

of

Defense

Technology

(.NUDT)

has

always

been

a

strong

competitor

in

HPC

accelerator

field.

This

paper

introduces

an

accelerator

for

exascale

HPC

which

is

self-designed

by

NUDT.

It

adopts

a

heterogeneous

architecture

with

CPU

and

general

purpose

digital

signal processor

(

GPDSP

).

It

has

the

characteristics

of

high

performance,

high

efficiency

and

high

programmability

,

and

is

expected

to

be

the

key

computing

chip

of

our

new

exascale

supercomputer

system.

Key

words

high

performance

computing

(

HPC

)

accelerator

heterogeneous

architecture

sei--

designed

;

highe

ficiency

高性能计算

(high

performance

computing

,

HPC)

是推动科学技术发展的基础性领域之一

作为超级计算机系统

下一个明珠

E

级高性能计算时代已经来临.面向

E

级高性能计算的加速

器领域成为了全球高端芯片的竞技场.国际上

AMD

英伟达和英特尔公司已经占据这一领域多年.作为

国内最早开始自主处理器设计的优势单位之一

国防科技大学一直以来都是高性能加速器领域强有力

的竞争者.主要对国防科技大学自主设计的面向

E

级高性能计算的加速器芯片进行介绍

该芯片采用了

CPU+GPDSP

的异构融合架构

具备高性能

高效能和高可编程性的特点

有望成为新一代

E

级超算

系统的核心计算芯片

.

关键词

高性能计算

加速器

异构融合体系结构

自主设计

高效能

中图法分类号

TP33

TN47

高性

能计算

(

high

performance

computing,

HPC)

是推动科学技术发展的基础性领域之一

器领域逐渐发展成为全球最高端芯片的竞技场.由

AMD

公司于

2020

11

月推出的

INSTINCT

TM

MI100

加速器的双精度峰值计算能力已经突破

称为超级计算机的

下一个明珠

E

级高性能计

算时代已经悄然来临.面向

E

级高性能计算的加速

收稿日期

2021

03

09

修回日期

=2021

-

04

-

20

基金项目

国家重点研发计划项目

(2018YFB0204301

课题

1)

10TFLOPS

量级

达到

11.5TFLOPS,

典型功耗为

This

work

was

supported

by

the

National

Key

Research

and

Development

Program

of

China

(2018YFB0204301

sub-project

I)

.

胜等

一种自主设计的面向

E

级高性能计算的异构融合加速器

1235

300

W[

1]

.

由英伟达公司于

2020

5

月推出的

A100

并针对应用进行了指令集级别的定制

提高了典

GPU

[]

其可编程部分的双精度浮点峰值计算能力

型应用的峰值运算能力和效能.每个

GPDSP_Cluster

9.7TFLOPS,

张量核

tensor

core

部分的双精度

包含

6

DSP

节点

每个

DSP

节点包含

4

DSP

.GPDSP_Cluster

内包含一个全局共享存储器

,

提供了片上高带宽的数据传输.还包含一个

HBM2

浮点峰值计算能力高达

19.5TFLOPS,

典型功耗为

400W.

根据报导

英特尔公司也将于

2021

年末甚至

更早推出代号为

Ponte

Vecchio

X

e

HPC

系列

GPU,

预计性能也将高达数十

TFLOPS

[]

.

转接桥和控制器

以支持片外高带宽数据传输.采用

了具备高带宽

支持优先权仲裁和

QoS

等多个特点

作为国内最早开始自主处理器设计的优势单位

的多级

CrossBar

CrossNet

片上网络结构

保证了

数据带宽的稳定发挥

.

之一

国防科技大学一直以来都是高性能加速器领

域强有力的竞争者.本文主要对国防科技大学自主

1.1

GPDSP

内核结构

设计的一款面向

E

级高性能计算的加速器进行介

绍.该芯片采用了

CPU

+

GPDSP

的异构融合架构

,

兼顾高性能

高效能和高可编程性的特点

双精度浮

点峰值性能可达

10TFLOPS

以上

典型应用情况下

效能在

50GFLOPS/W

左右,

有望成为新一代

E

超算系统的核心计算芯片

1

体系结构

该芯片采用了异构融合架构

如图

1

所示.由多

CPU

4

GPDSP_Cluster

五部分组成.多核

CPU

包含

32

FT-C662

CPU

内核

兼容

ARM

指令

每个

GPDSP_Cluster

包含

24

个自定义指令集

FT-M64DSP

核.作为芯片的主控部分

多核

CPU

可以访问和调用所有的资源

4

GPDSP_Cluster

相互独立.该芯片将主控部分和运算部分的互连在

片内解决

从而为两者间的通信提供高数据带宽

GPDSP_Cluster

从标

向量并行的

64

b

单核结

可扩展多核结构等方面实施了全方位

多层次并

行优化

充分开发应用的指令级

数据级

任务级并

Fig.

1

Architecture

of

the

chip

1

芯片体系结构

DSP

内核基于自主知识产权的指令集设计.如

2

所示

采用了超长指令字

very

long

instruction

word,

VLIW

技术和标向量协同融合的结构.向量

部件由

16

个同构的

VPE

阵列组成

每个

VPE

内部

包含

3

个乘加单元.指控单元

LIP/Fetch/Dispatch)

同时向标量单兀

scalar

unit

和向量单元

vector

unit

派发指令

16

VPE

采用

SIMD

的方式同时

执行相同的向量指令.标量部件和向量部件各自有

对应本地的局部存储器:标量存储器和阵列存储器.

DSP

内核拥有一个的

DMA,

支持灵活高效的数据

传输方式

如点对点

广播

分段

SuperGather

以充分适应不同的应用需求

Fig.

2

Structure

of

DSP

Core

2

DSP

内核结构图

1.2

存储层次

为了简化存储管理硬件逻辑设计

多核

CPU

部支持硬件

Cache

一致性

包含

16

MB

L2Cache

,

GPDSP_Cluster

支持软件管理的垂直存储一致性.

面向高性能计算以及

AI

等应用需求,提出了一种多

层次协同共享存储结构

将加速器

GPDSP

核内的

私有存储

80

MB,

峰值带宽

98TB/s

全局共享

存储

24

MB,

峰值带宽

1.2

TB/s

HBM

存储

4

HBM2,

峰值带宽

1.2TB/s,

容量

32

GB

三级

存储架构

通过高速

DMA

和片上网络连接

提供了

高带宽的数据传输和核间数据交互能力

.

1236

计算机研究与发展

2021,

58(6)

1.3

先进

灵活的

PCIE4.0

接口

n

)

n

为矩阵规模的系数.如图

4

所示

DGEMM

本加速器集成了

2

PCIE4.0

接口.每个

PCIE

法在系统的实测计算效率方面平均为

94%.

接口除了支持

4.0

规范外

还兼容

3.0,2.0

规范.每

个接口为

XI

6

设计

支持

EP

RC

模式

.

2

软件开发环境

针对异构融合架构设计并实现了一套支持异构

多核的类

CUDA

开发调试运行环境.支持用户在同

一个界面中进行多核

CPU

GPDSP

异构程序的

Fig.

4

Efficiency

of

DGEMM

调试

支持用户在同一个工程甚至在一个文件中编

CPU

GPDSP

异构程序

.

如图

3

所示

该芯片软件工具链包含了异构编

译器

资源管理库

异构运行时库

异构设备库等

便用户快速开发面向典型领域的高性能应用.

GPDSP

编译器针对多核

超长指令字

向量等特点

进行了一系列优化

具体包括标量和向量指令级并

行优化

SIMD

优化

循环展开和软流水优化

跳转

延迟槽调度优化

寄存器分配优化

、谓词优化等

Fig.

3

Structure

of

the

software

chain

3

软件工具链结构图

为了发挥加速器的计算能力和易用性

提供了

面向用户核心级代码的线性汇编开发工具

能够在

大幅提高核心代码效率的同时降低程序优化难度.

此外还提供与结构相匹配的手工汇编优化算法库

,

手工汇编优化后的算法库比普通

C

语言实现的库

函数效率能够提高一个数量级以上.目前已经完成

Linack,HPCG,CNN

等算法核心算法库的开发

.

3

算法效率评估

1)

双精度通用矩阵乘法

(

double

general

matrix

­

matrix

multiplication,

DGEMM

)

算法.采用

DGEMM

算法(执行

C

f

=

A

X

B

+

C

)

对系统的计算效率进行评

其中矩阵

A

的规模为

24576X512,

矩阵

B

的规模

512X(1152X

n

),

矩阵

C

的规模为

24

576X(1

152

X

4

DGEMM

算法的效率

2)

卷积神经网络模型算法.在加速器上实现了

深度卷积神经网络模型

AlexNet.

1

对比了本加

速器与其他

5

种高性能

GPU

⑷实现

AlexNet

推理

的计算性能•本加速器在深度卷积神经网络推理计

算方面能够达到

15108

/

秒,具有较高的计算性能

.

Table

1

Comparison

of

Our

Accelerator

and

Other

GPUs

1

本加速器与其它GPU

的性能对比

处理器

AlexNet

推理性能

/(

-

T)

NVIDIA

V100

8

700

NVIDIA

T42

600

NVIDIA

P4

2

600

GTX

1080

Ti3

712

GTX

1080

2285

本加速器

15108

4

本文主要介绍了国防科技大学自主设计的面向

E

级高性能计算的加速器芯片.目前该芯片已经顺

利流片和量产

下一步将围绕该芯片进行工具链和

应用开发进行更深入的工作

作者贡献声明

卢凯

芯片架构设计

郭阳

片结构设计

刘仲

芯片算法评估

三人对本文具有

同等贡献,均为通信作者

AMD.

AMD

INSTINCT

tm

MI100

ACCELERATOR

World's

Fastest

HPC

GPU

[OL].

[2021-03-01].

.

com/system/

files/documents/instinct-mil

00-brochure.

pdf

[2]

NVIDIA.

NVIDIA

A100

TENSOR

CORE

GPU

UNPRE

CEDENTED

SCALE

AT

EVERY

SCALE,

The

Most

Powerful

Compute

Platform

for

Every

Workload

[OL].

[2021

­

03-01].

https

:

//www

.

nvidia.

cn/content/dam/en-zz/Solutions/

Data-Center/a100/pdf/a100-80gb-datasheet-update-nvidia-us-

胜等

一种自主设计的面向

E

级高性能计算的异构融合加速器

WIKICHIP.

SC19

:

Aurora

Supercomputer

To

Feature

Intel

First

Exascale

Xe

GPGPU

,

7

nm

Ponte

Vecchio

[OL].

[021

­

03-01

].

https

//fuse.

wiki

chip.

org/news/3029/scl9-aurora-

1237

Sun

Haiyan

,

born

in

1

976.

Phi),

associate

professor.

Her

main

research

interests

includecomputerarchtecture

,

complerand

s

uper

compu

ter-to-feature-in

tel-first-exascale-xe-gpgpu-7

nm-

programming

environment.

ponte-vecchio/

[]

DELL.

INFERENCE

using

the

NVIDIA

T4

[OL].

[021-03

­

01]

.

https

//www.

dell.

com/

support/kbdoc/en-iis/000143470

/

inference-using-the-nvidia-t4

孙海燕

1

976

年生.博士

副研究员.主要研究

方向为计算机体系结构

编译

编程环境

.

Yang

Qianming

,

born

in

1984

PhD,

assistant

Liu

Sheng

,

born

in

1984.

Phi),

associate

professor.

His

main

research

interests

include

professor.

His

main

research

interests

include

computer

micro

archtecture

,

chip

memory

processor

micro

architecture

,

chip

memory

system

design

and

etc.

1984

年生.博士

研究员.主要研究

方向为处理器微体系结构

芯片存储系统设

计等

.

Lu

Kai

,

born

in

1973.

PhD.

Professor.

His

main

research

interests

include

parallel

programming

,

operatngsystemandsecurty.

1973

年生.博士

,教授.主要研究方向

为并行编程技术

、操作系统和安全性研究

.

Guo

Yang

,

born

in

1971.

Phi).

Professor.

His

main

research

interests

include

VLSI

and

processorarchtecture.

郭阳

1971

年生.博士

研究员.主要研究方

向为超大规模集成电路和处理器体系结构

.

Liu

Zhong

,

born

in

1971.

Phi).

Professor.

His

main

research

interests

include

high

perfor­

mance

computng

,

computer

archtecture

and

etc.

刘仲

1971

年生.博士

究员.主要研究方

向为高性能计算

计算机体系结构等

.

Chen

Haiyan

,

born

in

1

967.

Professor.

Her

main

research

interests

include

microprocessor

architecture

,

VLSI

design

and

etc.

陈海燕

1967

年生.研究员.主要研究方向为微

处理器体系结构

超大规模集成电路设计等

.

Lei

Yuanwu

,

born

in

1982.

Phi),

assistant

professor.

His

main

research

interests

include

computer

archtecture

,

mcroprocessor

desgn

etc.

雷兀武

1982

年生.博士

助理研究员.主要研

究方向为计算机体系结构

微处理器设计等

.

system

design.

杨乾明

1984

年生.博士

助理研究员.主要研

究方向为计算机微体系结构

芯片存储系统

设计

.

Chen

Xiaowen

,

born

in

1982.

Phi),

associate

professor.

His

main

research

interests

include

high

performance

microprocessor

architecture

,

NoC

and

etc.

陈小文

1982

年生.博士

副研究员.主要研

究方向为高性能微处理器体系结构

片上网

络等

.

Chen

Shenggang

,

born

in

1981.

Phi),

associate

professor.

His

main

research

interests

include

computerarchtecture

,

highperformancemicro-

processordesign.

陈胜刚

1981

年生.博士

副研究员.主要研

究方向为计算机体系结构

高性能微处理器

设计

.

Liu

Biwei

,

born

in

1

979.

Phi),

associate

professor.

His

main

research

interests

includehigh

performanceintegraton

circut

designandetc.

刘必慰

1

979

年生.博士

副研究员.主要研究

方向为高性能集成电路设计等

.

Lu

Jianzhuang

,

born

in

1977.

PhD,

professor.

His

main

research

interests

include

high

performance

microprocessor

architecture

,

on-chip

memory

,

VLSI

design

and

etc.

鲁建壮

1

977

年生.博士

究员.主要研究方

向为高性能微处理器体系结构

片上存储

VLSI

设计等

.


发布者:admin,转转请注明出处:http://www.yc00.com/xitong/1713558103a2272800.html

相关推荐

发表回复

评论列表(0条)

  • 暂无评论

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信