NUMAの構成

Download Report

Transcript NUMAの構成

LSI設計の基本
ディジタル回路
天野英晴
ASIC (Appplication Specific IC)


機能目的型のIC
実装方法




ゲートアレイ
セルベースド
フルカスタム
CPU、メモリ、I/O、専用ハードウェアを実装したシステム
LSI(SoC: System on-a Chip)


携帯電話、情報家電、ネットワーク制御等様々な分野で用いら
れる。
日本の半導体産業の主力製品(フラッシュメモリなどを除く
と、、)
ウェーハ
wafer
ダイ
die
HP 5thより
半導体チップの製造


レイアウト→ マスクパターンの作成
円盤状のウェーハ上に長方形のダイを多数製造




マスクパターンを用いて、様々な工程を経てチップが
製造される→ルネサスのサイト(半導体ができるま
で)を見てみよう!
ダイを切り出しボンディング
パッケージ内に格納
最終テスト
半導体のスケーリング則


2005年くらいまで(90nm,65nmくらいまで)
プロセスサイズ(technology size):プロセス技術
が許す最小加工幅が1/kに



集積度はkの2乗
スピードはk倍
電圧は1/k→ 電力がkの2乗分の1
3年でプロセスサイズが70%に減っていく
1.2→1.0→0.8→0.65→0.35→0.25→0.18→0.13
→0.09(90nm)

スケーリング則の崩壊
90nm,65nm前後からの傾向
 配線遅延の増大:スピードが向上しなくなる
→ プロセッサのクロック向上も限界に、、
 電圧の限界:1.0V以下には下げるのが困難
 リーク電流の増大:電力が下がらなくなる
 3年で70%のペースが落ちる
 しかし、集積度は相変わらず増大

1990年代:DRAM他メモリプロセスと論理プロセスとの分離
2005年以降:高速プロセスと低電力プロセスに分離
チップ設計手法

ゲートアレイ





セルベースド (スタンダードセル方式)




マスタスライス型
SoG (Sea-of-Gates)
Embedded Array
FPGAに対する競争力がない:現在はほとんど作られない
現在のASIC設計の主流
多数のIPを利用
SoC (System-on-a-Chip)
フルカスタム

特殊なチップに限定される
初期のゲートアレイの構造
…
…
…
…
…
…
…
I/O Pad
ゲート領域
配線領域
SOG(Sea Of Gates)
…
…
…
…
…
…
…
…
…
…
I/O Pad
ゲート領域
配線領域
SOGの例(FPU:Rohm 0.6μ)
Embedded Array

ASICを作る意義



大量生産時のコストの安さ
高速、高集積度
Embedded Arrayとは?

メモリやCPUなどのあらかじめ設計されたレイアウト
を使うことができるゲートアレイ
Embedded Array
RAM
CPU
…
Random Logic
ルータチップ内部レイアウト図
RDTルータチップパッケージ
MBP-lightのレイアウト
MBP-lightの外観
スイッチチップとMBP-lightを用いて作った並列計算機JUMP-1
ハードウェア処理部
コアプロセッサ
Martini の諸元
デザインルール
0.14μm
ダイサイズ
272.91mm2
メモリ総量
538KB
I/O 伝送周波数
RHiNET-2,3/SW
800MHz
OIP-SW
250MHz
内部動作周波数
コア部
66MHz
DIMM ホストI/F
133MHz
スイッチI/F
125MHz
パッケージ
784 BGA
ASIC版 NIC


コントローラに専用ASICを開発
PCI bus/ DIMM slot
Martini
SO-DIMM
光インタコネクション
ASICを用いて製作したPCクラスタRHiNET
セルベースド設計






小規模なゲート、大規模なIPの全てが自由な位置に配
置可能
そうはいっても、ゲートはやはり並べて配置する
配置、配線を設計者が制御する必要がある
90nmより進んだプロセスでは、Embedded Arrayでは
高い性能を得ることが難しくなり、セルベースド設計に移
行せざるを得ない
SoC(System on-a Chip)は主にセルベースド設計
配置、配線操作のオーバヘッドの増大
System on a Chip (SoC)
組み込み
CPU
アクセラレータ
特定の性能だけ要求されるの
ならば、その部分を強化するア
クセラレータを装備すれば高い
性能価格比が得られる
オンチップバス
オンチップネットワーク
RAM
I/O
I/O
専用ハードウェアを装備する
のが最も基本的なSoC
専用ハードウェアに
よるアクセラレータ
要求分析
ハードウェア/ソフトウェア
協調設計の流れ
上流の設計技術、高
位合成などの発達
下流の設計コスト増大
の問題
システム仕様
ハードウェア、ソフトウェア
切り分け
ハードウェア仕様
ハードウェア機能合成
ハードウェア
ソフトウェア仕様
インタフェース生成
インタフェース
組み合わせ、協調検証
システム
プログラム生成
プログラム
フロントエンド設計
System-CなどCレベル設計
Verilog-HDL, VHDLなどハードウェア記述言語でRTL設計
論理シミュレーション
論理合成・圧縮
高位合成
バグ
Synopsys社
Design Compiler
論理合成後のネットリスト
バグ
論理合成後シミュレーション
バックエンド
バックエンド設計
論理合成後ネットリスト
フロアプラン
電源ネット生成
レイアウトツール
Synopsys社IC Compiler
Cadence社SoC Encounter
配置
クロックツリー生成
配線
最適化
エラー
レイアウトデータ(GDS)
DRC, LVS, ERC
Formulation検証
実配線シミュレーション
エラー
セルベースド設計




バックエンド(配置・配線)以降の負担が大きい
65nm以降、日本の半導体は低リークプロセスが主流と
なり、性能はイマイチ(FPGAの倍程度)
FPGAでできることは、FPGAでやった方が良い
動的リコンフィギャラブルプロセッサMuCCRA


パワーゲーティングを施したCPU Geyser


パワーゲーティングが目的なので、、
超低消費電力Silent Mega Array


FPGAのライバルなので、、
電力測定が目的なので、、
三次元ワイヤレス接続MuCCRA-Cube

三次元ワイヤレス接続を持つ立体コンピュータ
動的リコンフィギュラブルプロセッサMuCCRAの改良版レイアウト
PE
MULT
CONF
MEM
MuCCRA-2 Floor Plan [ASSCC07]
•ASPLA’s 90nm
•2.5mmX2.5mm
(Core: 1.5X1.5)
16
MuCCRA-3 フロアプラン[ERSA09][FPT09]
コンテキストメモリ
の深さ:32
Core Density:86%
メモリ比率:19.4%
チップ:2.1mmX4.2mm
工数:3-4人1.5カ月-2カ月
32
配線後
Geyser-1
e-shuttle 65nm
 Vdd=1.2V
4.2 mm
Shifter
ALU
MULT
DIV
リークモニタ
Runtime PG
PG-cells Power Switch Non-power-gated cells
PG-cells
VDD
GND
Power-Isolation
Switch cell
Driver
F/F
PowerSwitch
Driver
GND
Isolation
cell
VDD
Local Power Domain
Local VGND Lines
Local Power Domain
Geyser-2 Structure
Geyser-2
R3000
Core
210MHz
TLB
Inst. Cache (8KB,
2Way)
MMU
Data Cache (8KB,
2Way)
105MHz
FPGA
IO ,etc
SDRAM
Board
Geyser-2 Layout
2.1 mm
4.2 mm
Pin-limited design and only half of die area is utilized
世界一:100MOPS/mW
Cool Mega Array
レベルシフタ
PE アレイ
μコントローラ
パワーゲーティング
テスト回路
Power Efficiency of CMA-1
2.4GOPS/11.2mW(247MOPS/mW )was achieved
250 as a result of using big PE array effectively.
MOPS/mW
200
150
100
50
0
af
sf
sepialpha
gray
F.Clermidy, et.al., "A 477mW
edge
NoC-Based Digital Baseband for
ssatdd
MIMO 4G SDR," 2010
Sepia
Y.Tuyama, et.al.,"A 45nm
DCT
37.3GOPS/W Heterogeneous
Alpha
Multi-Core SoC," 2010
sad
satd
Y.Saito,et.al.," Real Chip
ssd
Evaluation of Dynamically
0.45 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 Reconfigurable
1 1.1 1.2 Processor
Array Voltage[V]
ArrayMuCCRA-3 “, 2009
チップの積層の写真
Inductive-Coupling
PE
PE Link
PE PE
Down
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
PE
Inductive-Coupling
Up Link
2.5mm
Four Stacked Chips on a PCB Board
Technology: 90nm, Chip Thickness: 85mm, Glue: 10mm
5.0mm
Data Memory
GPU(NVIDIA’s GTX580)
128 Cores
128 Cores
L2 Cache
128 Cores
128 Cores
512 GPU cores ( 128 X 4 )
768 KB L2 cache
40nm CMOS 550 mm^2
SUN Niagara 2
Niagara 2
Multi-Core (Intel’s Nehalem-EX)
CPU
CPU
L3 Cache
CPU
CPU
CPU
CPU
L3 Cache
CPU
CPU
8 CPU cores
24MB L3 cache
45nm CMOS 600 mm^2
Intel 80-Core Chip
Intel 80-core chip [Vangal,ISSCC’07]
今後の授業との関連
計算機構成同演習
LSI設計の流れ
ディジタル回路
コンピュータアーキテクチャ
VLSI設計演習
SoC設計論
4年春 Verilogによる設計演習
レイアウト演習
大学院 Cレベル設計
システム設計 外部講師
SoC設計演習
大学院 Cレベル設計
システム設計演習 早稲田で他の
大学生と一緒にやる
システムLSI特論
大学院 電子工学科
黒田先生