Document

Transcript Document

情報システム基盤学基礎１
情報システム基盤学基礎１
コンピュータアーキテクチャ編第５回
プロセッサ（後編）
高性能コンピューティング学講座
三輪忍
[email protected]
1
情報システム基盤学基礎１
本日の講義内容
• プロセッサの単純な実装方式（復習）
• パイプライン処理
• ハザード
2
情報システム基盤学基礎１
プロセッサの単純な
実装方式（復習）
3
情報システム基盤学基礎１
4
プロセッサ内部の処理
• 命令フェッチ
• PC が指すアドレスの命令をメモリから読み出す
• 命令デコードとレジスタ読み出し
• 命令をフィールドに分解して制御信号などを生成
• （必要があれば）レジスタファイルにアクセスしてレジスタ値を読み出す
• 実行
• 各種の演算を実行
• メモリアクセス
• （必要があれば）計算されたアドレスを用いてメモリアクセスを行う
• レジスタ書き込み
• （必要があれば）計算結果をレジスタファイルへ書き込む
情報システム基盤学基礎１
5
加算
2ビット
左シフト
4
加算
プロセッサ全体の構成
Branch
命令フェッチ
命令メモリ
命令デコード＆
レジスタ読み出し
Read
データ1
Read
Reg 2
Read
データ2
Zero
ALU
Read
Reg 1
アドレス
Read
データ
Write
Reg
Write
データ
Write
データ
実行
ALU
制御
Read
データ
レジスタファイル
符号
拡張
RegDst
PC
Read
アドレス
MemWrite
ALUOp
ALUSrc
RegWrite
MemRead
制御
MemtoReg
データメモリ
メモリアクセス
レジスタ書き込み
情報システム基盤学基礎１
6
加算
2ビット
左シフト
4
加算
動作例（ロード命令）
Branch
4
RegDst
“18(s2)”
Read
lw $s2, 4($t0)
データ
命令メモリ
Read
8 1
Reg
Read
1024
データ1
Read
Reg 2
Read
データ2
Zero
“1028”
アドレス10 Read
データ
Write
Reg
“10”
“4”
Write
18
データ
Write
データ
10
0
データメモリ
ALU
制御
Read
アドレス
レジスタファイル
符号
拡張
４
８
PC
“8(t0)”
MemWrite
ALUOp
ALUSrc
RegWrite
ALU
“lw”
MemRead
制御
MemtoReg
情報システム基盤学基礎１
7
単純な実装方式のクロックサイクル
• 単純な実装方式は回路遅延が大きい
• 最長パスは，命令フェッチ ⇒ 命令デコード ⇒ 実行 ⇒ メモリアクセス ⇒
レジスタ書き込み（ロード命令実行時）
• 上記のパスの遅延＝単純な実装方式の遅延
加
算
• 長いクロックサイクルが必要
制御
Branch
Read
Reg 2
Zero
ALU
Read
アドレス
Read
データ1
Read
データ2
Read
データ
アドレス
Write
Reg
Write
データ
ALU
制御
Write
データ
符号
拡張
４
PC
Read
Reg 1
[ 単純な実装方式の最長パス ]
Read
データ
情報システム基盤学基礎１
パイプライン処理
8
情報システム基盤学基礎１
9
単純な実装方式における処理の流れ
• 命令を逐次的に処理
• まず命令1のフェッチ，デコード，…，レジスタ書き込みを順に実行
• 命令1のすべての処理が完了したら命令2の処理を開始
clk
time
命令1
命令2
IF
ID
EX MEM WB
IF
ID
EX MEM WB
命令3
IF
IF：
命令フェッチ
ID：命令デコード＆レジスタ読み出し
EX：実行
MEM：メモリアクセス
WB：レジスタ書き込み
ID
EX MEM WB
情報システム基盤学基礎１
10
レストランに置き換えてみると…
• 単純な実装方式における処理
• オーダーから会計まで1人でこなす
• 非常に効率が悪い
レストランA
• 処理効率を上げるには？
• 人を雇って作業分担
• 流れ作業（オーダー担当，調理担当，給仕担当，会計担当など）
レストランB
情報システム基盤学基礎１
11
流れ作業が上手くいくためには…
• 全員の処理速度を等しくする
• 1人でも遅い人がいると全体の足を引っ張ってしまうため
全員が常に仕事をしている
次々に仕事が
溜まっていく
[ 遅い人に配慮せずに仕事を進めた場合 ]
暇な人が生まれる
[ 全員が同じ速さで仕事する場合 ]
[ 遅い人に合わせて仕事を進めた場合 ]
情報システム基盤学基礎１
12
パイプライン処理
• 処理を複数のパイプラインステージに分割
• 機能的に分割しやすい部分で分割
• 各ステージの回路遅延がなるべく等しくなるように分割
• 例： IF, ID, EX, MEM, WD の 5 つのステージに分割
• 流れ作業によってプログラムを実行
clk
time
命令1
命令2
命令3
命令4
命令5
IF
ID
EX
MEM WB
IF
ID
EX
IF
ID
EX
IF
ID
EX
IF
ID
MEM WB
MEM WB
MEM WB
EX
MEM WB
IF：
命令フェッチ
ID：命令デコード＆レジスタ読み出し
EX：実行
MEM：メモリアクセス
WB：レジスタ書き込み
情報システム基盤学基礎１
13
非パイプライン vs パイプライン
• 非パイプライン処理
命令1
IF
ID
time
実行時間＝ n × s
EX MEM WB
命令2
IF
ID
EX MEM WB
命令3
IF
ID
EX MEM WB
約1/s
• パイプライン処理
命令1
命令2
命令3
命令4
命令5
IF
time
ID
EX
MEM WB
IF
ID
EX
IF
ID
EX
IF
ID
EX
IF
ID
実行時間＝ n + s - 1
MEM WB
MEM WB
MEM WB
EX
MEM WB
n：命令数
s：ステージ数
情報システム基盤学基礎１
14
パイプラインレジスタ
回路 A
• 各ステージの足並みをクロック
x
サイクルに合わせる HW
c
y
• ステージ内＆ステージ間
• ステージをまたぐ全ての信号線
s
z
に挿入
clk
サイクル1
パイプライン
レジスタ
パイプライン化
ステージ1
x
y
ステージ2
a
b
c c’
clk
X
a
b
b’
a’
s
z
b’
c
clk
c’
遅延が異なる
サイクル3
time
y
a’
サイクル2
情報システム基盤学基礎１
15
パイプライン処理を行うプロセッサ
レジスタ
書き込み
加算
2ビット
左シフト
RegWrite
4
メモリアクセス
実行
命令デコード＆
レジスタ読み出し
加算
命令フェッチ
Read
データ
Read
データ1
Read
Reg 2
Read
データ2
MemtoReg
MemWrite
MemRead
Zero
ALU
Read
アドレス
Read
Reg 1
アドレス
Read
データ
Write
Reg
Write
データ
データメモリ
ALU
制御
命令メモリ
RegDst
Write
データ
符号
拡張
PC
レジスタファイル
ALUOp
ALUSrc
制御
Branch
情報システム基盤学基礎１
16
加算
2ビット
左シフト
RegWrite
4
加算
動作例（0サイクル目）
0
4
8
12
16
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
beq $s6,$s7,20
MemtoReg
MemWrite
MemRead
Zero
データメモリ
ALU
制御
プログラム
符号
拡張
命令メモリ
RegDst
PC
ALU
レジスタファイル
ALUOp
ALUSrc
制御
Branch
情報システム基盤学基礎１
17
動作例（1サイクル目）
加算
2ビット
左シフト
RegWrite
4
加算
lw $s2, 4($t0)
0
PC
ALU
“4”
lw $s2, 4($t0)
0
4
8
12
16
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
beq $s6,$s7,20
データメモリ
ALU
制御
プログラム
符号
拡張
命令メモリ
RegDst
“0”
MemtoReg
MemWrite
MemRead
Zero
レジスタファイル
ALUOp
ALUSrc
制御
Branch
情報システム基盤学基礎１
18
動作例（2サイクル目）
add
$t1,$s0,$s1
lw $s2,
4($t0)
加算
2ビット
左シフト
RegWrite
加算
4
lw $s2, 4($t0)
“8(t0)”
8
1024
“18(s2)”
4
0
PC
lw $s2,
4($t0)
$t1,$s0,$s1
“0”
“4” add
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
beq $s6,$s7,20
ALU
制御
“18(s2)”
0
4
8
12
16
“4”
データメモリ
RegDst
プログラム
符号
拡張
命令メモリ
MemtoReg
MemWrite
MemRead
ALUOp
ALU
“4”
“8”
Zero
“1024”
レジスタファイル
ALUSrc
制御
Branch
“lw”
情報システム基盤学基礎１
19
動作例（3サイクル目）
2ビット
左シフト
RegWrite
加算
4
lw $s2, 4($t0)
add
$t1,$s0,$s1
lw $s2,
4($t0)
加算
sub
$t2,$s3,$s4
add
$t1,$s0,$s1
lw $s2,
4($t0)
1024
100
17
10
“9($t1)”
“18(s2)”
ALU
制御
“add”
“18(s2)”
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
beq $s6,$s7,20
“4”
符号
拡張
プログラム
データメモリ
RegDst
命令メモリ
MemtoReg
MemWrite
MemRead
“4”
“10”
8
PC
“18(s2)”
“17(s1)”
$t1,$s0,$s1
sub $t2,$s3,$s4
“4”
“8” add
0
4
8
12
16
Zero
ALU
16
8
“1028”
“8(t0)”
“16(s0)”
“8”
“12”
“1024” ALUOp
“1024”
“100”
レジスタファイル
ALUSrc
制御
Branch
“lw”
“ALU”
情報システム基盤学基礎１
20
動作例（4サイクル目）
2ビット
左シフト
RegWrite
加算
4
lw $s2, 4($t0)
add
$t1,$s0,$s1
lw $s2,
4($t0)
sub
$t2,$s3,$s4
add
$t1,$s0,$s1
lw $s2,
4($t0)
加算
sub
sw
$t2,$s3,$s4
16($t0)
add
$t1,$s0,$s1
lw $s5,
$s2,
4($t0)
20
17
80
10
MemtoReg
MemWrite
MemRead
Zero
“10”
“4”
16384
“10($t2)”
“9($t1)”
“18(s2)”
“sub”
“add”
データメモリ
“9(t1)”
“18(s2)”
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
beq $s6,$s7,20
符号
拡張
プログラム
RegDst
命令メモリ
ALU
制御
$t2,$s3,$s4
“8” sub
sw $s5,
16($t0)
“12”
0
4
8
12
16
“1028”
“10”
“80”
12
8
PC
“20(s4)”
“17(s1)”
“16384”
320
100
“110”
“1028”
19
16
ALU
“19(s3)”
“16(s0)”
“16”
“12”
“100” ALUOp
“1024”
“100”
“320”
レジスタファイル
ALUSrc
制御
Branch
“ALU”
情報システム基盤学基礎１
21
動作例（5サイクル目）
加算
2ビット
左シフト
“20”
lw $s2, 4($t0)
add $t1,$s0,$s1
sub
$t2,$s3,$s4
lw $s2,
4($t0)
sw
16($t0)
add
$t1,$s0,$s1
lw $s5,
$s2,
4($t0)
RegWrite
4
加算
sub
beq
$t2,$s3,$s4
$s6,$s7,20
add
$t1,$s0,$s1
lw $s2,
4($t0)
20
80
18
16384
“10”
“80”
“sub”
“10($t2)”
MemtoReg
MemWrite
MemRead
Zero
ALUOp
“80”
16384
“18(s2)”
“9(t1)”
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
beq $s6,$s7,20
“9(t1)”
“10(t2)”
0
4
8
12
16
“16”
符号
拡張
プログラム
“1028”
データメモリ
RegDst
命令メモリ
ALU
制御
“16384”
“18(s2)”
sw $s5,
16($t0)
“12” beq
$s6,$s7,20
“16”
“20(s5)”
16
12
PC
“21(s5)”
“20(s4)”
“110”
“16384”
1024
320
ALU
19
8
“110”
“240”
“8(t0)”
“19(s3)”
“16”
“100”
“320”
“320”
“1024”
レジスタファイル
ALUSrc
制御
Branch
“sw”
“ALU”
情報システム基盤学基礎１
22
PC/サーバ用プロセッサの命令パイプライン
• 以前：ステージ数がとても多かった
• 例： Intel Pentium 4 （2000年頃）の命令パイプライン
• 31 ステージのプロセッサが発売されていたこともあった
• クロック周波数を上げることが最善と考えられていたため
• 現在： 14 ステージ前後
• 周波数を上げても思ったほど性能向上には繋がらなかった
• 消費電力の問題が深刻になった
• 周波数の増加
消費電力の大幅な増加
情報システム基盤学基礎１
23
その他のプロセッサの命令パイプライン
• パーソナルモバイルデバイス
• 高性能なものでは 10 ステージ以上に分割して数 GHz で稼働
• かつての PC 並
• 組込みプロセッサ
• 性能と消費電力のレンジが広いためプロセッサによって大きく異なる
• パイプライン化されていないもの～数段のパイプラインを持つもの
情報システム基盤学基礎１
ハザード
24
情報システム基盤学基礎１
ハザード（パイプラインハザード）
• 命令をパイプライン処理できない状況
• パイプラインの停止や処理のやり直しが必要
すいませんお客様
「本日のデザート」
は品切れでして…
「本日のデザート」は
品切れだよ
最後の「本日のデザート」
「本日のデザート」
をください！
[ パイプラインハザード ]
25
情報システム基盤学基礎１
ハザードの種類
• 構造ハザード
• データハザード
• 制御ハザード
26
情報システム基盤学基礎１
27
構造ハザード
• ハードウェア資源の不足によって命令が実行できなくなること
• 例：命令とデータが同じメモリに格納されており，同時にはどちらか一方
しか読み出すことができない場合
メモリアクセス
IF
IF
IF
IF
MEM
time
lw $s2, 4($t0)
add $t1,$s0,$s1
sub $t2,$s3,$s4
sw $s5, 16($t0)
IF
ID
EX
MEM
IF
ID
EX
IF
ID
IF
• 十分な資源があれば発生しない
• 例：命令とデータを同時に読み出すことができるメモリにすればよい
情報システム基盤学基礎１
28
データハザード
• データの依存関係によって命令が実行できなくなること
• 例：直前の命令が書き込んだレジスタを後続の命令が読み出す場合
$s0の中身
$s2の中身
$t1の中身
100
10
0
100 100 100
$t1へ格納
10
10
10
0
0
0
100
10
110
100
10
110
100
10
110
time
add $t1,$s0,$s2
add $t2,$t1,$s3
IF
ID
EX
MEM WB
「$s0+$s2」
の実行
データ依存
IF
ID
$t1の読み出し
[ パイプライン処理を行わない場合 ]
$s0の中身
$s2の中身
$t1の中身
add $t1,$s0,$s2
add $t2,$t1,$s3
100
10
0
IF
100
10
0
100
10
0
100
10
0
100
10
110
ID
EX MEM WB
IF
ID
EX
「110」を$t1に書き
込む前に読み出し
MEM
[ パイプライン処理を行う場合 ]
time
情報システム基盤学基礎１
29
制御ハザード
• 制御依存関係によって命令が実行できなくなること
• 例：条件分岐命令の結果によって実行される後続命令が異なる場合
beq $s6,$s7,label
sub $t2,$s3,$s4
IF
ID
EX
MEM WB
制御依存
分岐成立
「sub $t2,$s3,$s4」
の命令フェッチ開始
IF
time
プログラム
beq $s6,$s7,label
add $t1,$s0,$s1
label: sub $t2,$s3,$s4
[ パイプライン処理を行わない場合 ]
beq $s6,$s7,label
???
IF
ID
EX
IF
ID
分岐の成立/不成立が
判明する前に後続命令
のフェッチを開始
[ パイプライン処理を行う場合 ]
time
情報システム基盤学基礎１
30
ハザードへの対処
• 一般的な対処法
• 保守的な方法：ストール（パイプラインストール）
• 積極的な方法：投機的に処理を行い，投機が間違っていたら再実行
• ハードウェアやプログラムの変更により解決
• バイパシング（フォワーディング）
データハザードの一部
• 遅延分岐
制御ハザードの一部
情報システム基盤学基礎１
31
ストール
• ハザードが解消されるまで後続命令の処理を停止
• ハザードが解消されたら停止していた命令の処理を再開
$s0の中身
$s2の中身
$t1の中身
100
10
0
100
10
0
100
10
0
100
10
0
100
10
110
100
10
110
time
add $t1,$s0,$s2
add $t2,$t1,$s3
IF
ID
EX MEM WB
IF
ID
データハザード発生
ID
ID
データハザード解消
ID
後続命令の処理再開
後続命令の処理停止
[ データハザード時にストールを行った場合 ]
情報システム基盤学基礎１
32
投機実行
• 予測にもとづき，後続命令の処理を投機的に実行開始
• 投機成功/失敗を評価し，結果に応じて適切な処理を施す
• 投機成功
何もしない
• 投機失敗
アーキテクチャ状態を回復し，正しい結果を用いて再実行
• 投機に成功した場合は，命令パイプラインはハザードがない時
と同様の振る舞いを示す
• 詳細は「高性能コンピューティング論２」で
分岐成立
beq $s6,$s7,label
IF
time
MEM WB
ID
EX
IF
ID
EX
IF
ID
EX
add $s5, $t3, $t1 分岐成立と予測し
label 以降の命令
フェッチ開始
IF
ID
sub $t2,$s3,$s4
lw $t3, 4($t0)
MEM WB
MEM WB
EX
MEM WB
[ 投機実行（分岐予測）を行った場合 ]
プログラム
beq $s6,$s7,label
add $t1,$s0,$s1
label: sub $t2,$s3,$s4
lw $t3, 4($t0)
add $s5, $t3, $t1
情報システム基盤学基礎１
33
バイパシング
• レジスタ書き込み前のデータを必要なステージに直接供給
• 演算命令間のデータハザードを解消
• メモリ命令⇒演算命令のデータハザードを緩和
バイパス
「$s0+$s2」の結果判明
add $t1,$s0,$s2
IF
100
110
($s0)
($t1)
add $t2,$t1,$s3
ID
EX MEM
IF
ID
EX
time
バイパスされた
データを使って
演算実行
182
($s3)
512
292
110
310
(($t2)
4(t0))
($t1)
ALU
[ EX⇒EXバイパシング ]
200
10
($s2)
($s3)
データメモリ
「4($t0)」のロード完了
lw $s3, 4($t0)
add $t2,$t1,$s3
EX
MEM
IF
time
ID
EX MEM WB
IF
ID
EX
EX
[ MEM⇒EXバイパシング ]
バイパスさ
れたデータ
を使って
演算実行
情報システム基盤学基礎１
34
遅延分岐
• 分岐結果の影響を受けない命令をコンパイラが検出
• 分岐の成立/不成立によらず実行される命令
• かつ，分岐の成立/不成立によらず結果が同じ命令
• 上記命令を分岐命令の直後に挿入することで制御ハザードの
発生を防ぐ
• 欠点：挿入できる命令が十分な数存在しない場合はストール
add $s0,$s0,$s2
beq $s6,$s7,label
add $s0,$s0,$s1
label: sub $s3,$s0,$s2
lw $s4, 4($t0)
add $s5, $s3, $s4
分岐成立
プログラム A’
プログラム A
beq $s6,$s7,label
add $s0,$s0,$s2
lw $s4, 4($t0)
add $s0,$s0,$s1
label: sub $s3,$s0,$s2
add $s5, $s3, $s4
変換
beq $s6,$s7,label
add $s0,$s0,$s2
lw $t4, 4($t0)
sub $s3,$s0,$s2
分岐結果
の影響を
受けない
IF
ID
EX
MEM
IF
ID
EX
IF
ID
time
IF
[ 遅延分岐 ]
結果が判明して
から分岐先の
命令フェッチ開始
情報システム基盤学基礎１
本日のまとめ
35
情報システム基盤学基礎１
まとめ
• プロセッサの単純な実装方式（復習）
• パイプライン処理
• ハザード
36
情報システム基盤学基礎１
次回
• 7/23（木） 9:00～
• 「記憶階層（前編）」について解説
37

Document

Transcript Document

Directory