PPT - 浙江大学计算机辅助设计与图形学国家重点实验室

Download Report

Transcript PPT - 浙江大学计算机辅助设计与图形学国家重点实验室

图形并行绘制与多屏显示技术
Graphics Parallel Rendering and
Multi-screen Display
石教英
浙江大学CAD&CG国家重点实验室
2003年9月
绘制
对于真实感图形绘制而言,指用数学
模型模拟客观世界中物体与可见光的相互作
用生成真实感图象的过程。对于非真实感图
形绘制而言,指用数学模型或算法生成具有
艺术风格的图象的过程。
图形绘制的工业化过程
数学模型
产生
算法集合
应用
调用
软件包
驱动程序
硬件
高端应用





需要高分辨率的场合,例如使用一个4×4的屏幕拼接
实现4096 * 4096分辨率的大屏幕;
巨型几何场景,如场景数据规模超过10M数量级以上
的三角形面片
反走样,例如3×3 走样,计算量增加9倍之多
大纹理数据量,利用并行/分布图形绘制可以满足纹理
数据过大的问题,例如地球数据模型等
科学计算领域,例如有限元计算,计算量非常大,一
般使用大规模并行计算或者大规模分布计算环境,希
望能够集中显示
高端应用:超高分辨率科学计算可视化
孤立系统性能的限制

compute-limited:产生几何数据的能力

graphics-limited:图形计算能力

interface-limited:几何指令发射能力

resolution-limited:显示分辨率
追求高性能绘制
非并行手段



利用某些CPU的SIMD
扩展指令集能使几何
变换速度提高20%~
30%
AGP总线规范
不断进步的ASIC硬件
技术等
并行手段


绘制流水线技术
多条流水线并行技术
经典的绘制流水线
Geometry Phase
Modeling
Transforma
tions
Backface
Culling
Lighting
Calculat
ions
Rasterization Phase
Viewing
Transfor
mation
Clipping
Rasteriz
ation
Z-buffer
Compare &
Store
多条流水线并行绘制及其分类方式
按照图形对象的分布方式可分为sort-first、sortmiddle、sort-last三种。
预变换和分布图元
G
R
G
R
G
R
G
G
G
R
G
R
分布屏幕坐标图元
图像合成
R
Sort-first
G
R
R
Sort-middle
Sort-last
G
R
Sort-first
• 输出图像被划分为一些不相交的区域,如小矩形
或连续的扫描线,每条绘制流水线负责一个或多
个区域
• 图元在进入流水线之前,先进行必要的计算以确
定其覆盖的区域,这种计算被称为“预变换” 通
常方法为算出图元在屏幕上的外包围盒
(bounding box)并进行比较
• 一个图元有可能覆盖多个区域而进入多条流水线
• 子图像(subimage)拼接为最终图像
预
变
换
和
分
布
图
元
G R
G R
G R
G R
Sort-first优缺点
• 各条流水线完整而独立,且相对sort-middle和sortlast需要的通讯带宽较小
• 有利于构建集群式或异构的并行绘制系统,如
WireGL
• 预变换与部分几何变换单元的计算重复,是一个
不可避免的开销
• 对负载平衡敏感
Sort-middle
• 输出图像被划分成一系列区域,并由多个子图像
拼接而成 ,同sort-first
• 不同的是图元不考虑视点关系、任意地(比如按
轮转序)进入各个几何变换单元
• 几何变换之后,图元被转换成了2D屏幕座标,再
根据屏幕座标被传送到正确的光栅化单元
R
G
G
G
G
乱序进入
分
布
屏
幕
图
元
R
R
R
Sort-middle优缺点
• 几何转换和光栅化一般总是由不同的处理
单元来处理,sort-middle在G、R之间打断
流水线的方式是最“自然”的
• 直观和常用,有利模块化地实现
• G与R的两两之间都需通讯,随着处理单元
的数目增多,通讯开销将呈几何级数增长
• 对负载平衡敏感
Sort-last
• 图元任意地进入各条流水线,并独立完成
几何变换和扫描转换
• 一直计算到光栅化的最后一步:可见性判
断(visibility)
• 每条流水线都产生了包含部分图元的完整
分辨率的象素(样本)
• 在合成单元(compositing processor)进行
深度合成或alpha混合,输出最终图像
G R
G R
G R
G R
乱序进入
图
像
深
度
合
成
Sort-last优缺点
• 简明 ,易于利用已有的系统模块(尤其是
硬件)实现
• 其性能不受图元分布的影响,对负载平衡
不敏感
• 图像合成步骤易成为系统瓶颈
并行图形绘制的三种实现方式

基于ASIC技术的硬件实现



基于并行计算机的实现



sort-middle的InfiniteReality
sort-last的Pixel-Flow
基于共享内存并行机的sort-last系统Parallel-Mesa
基于分布式内存消息传递并行机的sort-middle系统
PGL
基于集群机的实现



sort-first的WireGL
sort-last的Sepia
sort-first/sort-last混合型的AnyGL
WireGL




Siggraph 2001 by Stanford University
解决了分布并行图形系统系统关键问题:
指令编码传输和状态跟踪
第一个基于sort-first体系结构并且独立于
硬件平台的图形集群绘制系统
第一次对所有关键技术问题提出了完整、
实际的解决方案
WireGL系统
WireGL的后续:Chromium



Siggraph 2002
明确地提出了“流处理” 的概念,图形
绘制过程被看作数据流在SPU(Stream
Process Unit)间流动的过程
各种类型SPU的连接组合可以生成各种结
构的并行绘制系统
Chromium:绘制指令分布+多
屏幕拼接输出的SPU组合
Chromium Server
Render
Chromium Server
Application
Render
Tile sort
. . .
Chromium Server
Render
Chromium Server
Render
立即模式并行绘制系统AnyGL
应用程序
G-Node
应用程序
G-Node
应用程序
G-Node
应用程序
G-Node
R-Node
R-Node
网络
R-Node
R-Node
网络
C-Node
C-Node
网络
D-Node
D-Node
立即模式并行绘制系统AnyGL


AnyGL实现了大规模混合分布图形体系结构,实现了
sort-first与sort-last的混合分布图形体系结构,解决了
分布图形计算的可扩展性问题,系统节点数目不受限
制
AnyGL实现了一个分布的虚拟并行图形流水线,可划
分为四类逻辑节点:几何数据分配节点,几何图形绘
制节点,深度图像合成节点和图形显示节点。AnyGL
允许一个物理节点支持多个多种类型的逻辑节点,能
够利用SMP系统的多图形加速卡实现并行计算。
并行图形绘制方法分类的新思路:
两种API
进程A
进程B
应用程序
模型数据
立即模式绘制器
应用程序
模型数据
保留模式绘制器
(a) 立即模式API
(b) 保留模式API
并行图形绘制方法分类的新思路:
两种并行绘制体系结构
进程A
进程B
应用程序
进程C
立即模式绘制器
局域网
局域网
模型数据
应用程序
进程D
模型数据
保留模式绘制器
(a) 立即模式并行绘制
(b) 保留模式并行绘制
并行图形绘制方法分类的新思路



传统上图形绘制API分为立即模式和保留
模式两种
立即模式系统数据存储于客户端,保留
模式系统数据存储于服务器端
并行绘制系统可分为立即模式并行绘制
系统和保留模式并行绘制系统
绘制节点
绘制节点
几何数据
几何数据
归属判断
数据调整
负载平衡
客户节点
显示
设备
绘制节点
绘制节点
几何数据
几何数据
对象分布策略
拼接输出
保留模式并行绘制系统的构架
保留模式系统的数据分布存储
•
立即模式并行绘制系统:
1. 数据集中+几何指令分布,对网络带宽高度
依赖,网络带宽和归属计算易成为系统瓶颈
2. 数据都在客户端,每绘制一帧,所有几何数
据就作为指令的参数分布到服务器上,服务
器绘制完毕,即将数据丢弃,绘制下一帧时
重复同样的过程
3. 结构缺乏弹性,无法有效利用图形应用程序
的帧间相似性
对策
1.
2.
3.
交互式图形应用程序普遍存在帧间相似性
(frame-to-frame coherence),完全突兀
的帧是少的,理论上两帧之间只需进行少
量的数据调整
保留模式系统中几何数据分布于绘制节点
只要能实现一种数据分布+帧间调整的系
统构架,就可能降低网络数据流量,避免
带宽瓶颈
系统流程
1.
2.
3.
4.
客户端读入几何数据集G,对G进行剖分并构
造Cell结构
在绘制第一帧之前,客户端以Cell为单位作归
属判断,并根据归属关系将Cells分布到各个
绘制节点
绘制第一帧
如用户改变视角,客户端计算新的几何变换
矩阵并发指令到各个绘制节点,不重发G
5.绘制节点根据新的变换矩阵对本机所拥
有的图元作归属判断。若某一图元归属
于另一绘制节点,则将此图元发送到该
绘制节点。若某一图元不再归属于本绘
制节点,则将其删除。多个绘制节点之
间发送和接收图元的过程称为调整
(adjust)。调整之后,每个绘制节点都
拥有且只拥有归属于它的图元
6.绘制新的帧
Application
AF Client
AF
Server
AF
Server
AF Protocol
AF
Server
AF
Server
API calling
image output
AF Protocol communication
原型系统结构
多机加速和调整率
调整率c:通过网络的数据量和全部数据量之比
保留模式并行绘制系统受控的
归属判断



立即模式并行绘制通过传送几何指令包
分布绘制任务
由于立即模式并行绘制系统不拥有数据,
几何数据发射的顺序完全由应用程序决
定,而后者的行为是不可预测的
如果应用程序发射的几何数据在空间排
列上是混乱的,可能使外包围盒过大,
导致不必要的传输和绘制开销
4
3
5
1
4
6
2 3
1
(a) 理想情况
2
6
(b) 不利情况
5
对策




保留摸索并行绘制系统拥有特殊的优势:
对数据的控制能力
对模型数据进行预处理,对模型进行剖
分,生成紧凑的外包围盒
按合理的顺序发射数据
可降低图元归属于多个绘制服务器的概
率。
Dragon模型的box剖分
Ball:比Box更进一步




Ball = (Pcenter, R, Geometry)
Pcenter为中心点,R为半径,Geometry为
Ball内的几何图元数据
一个Ball包含了空间上相近的一组几何元
素
与立方体外包围盒相比,Ball定义了一个
球,能更快的进行归属判断
Dragon模型的ball剖分
实用有效的并行绘制负载平衡
算法
负载不平衡的情况
实用有效的并行绘制负载平衡
算法
负载平衡的情况
静态并行绘制负载平衡算法
1
2
1
2
3
4
3
4
1
2
1
2
3
4
3
4
问题



屏幕配置一旦完成,系统就处于被动等
待的状态
依据“图元更易出现在屏幕中央”这一
统计规律,因此其有效性也是统计意义
上的
针对具体的图形应用的适应性差,不能
满足高性能图形并行绘制的需要
动态并行绘制负载平衡算法
5
2
1
1
2
2
6
3
1
3
7
4
4
(a) Roble 算法
1
2
4
7 8
5
6
3
8
4
(b) Whelan算法
5 6
1
7
3
3
(c)Whitman算法
2
(d)MADH算法
4
8
动态方法特点
利用所有图元的顶点位置、几何变换矩阵
等几何数据作为输入计算负载平衡状态最佳的
屏幕剖分,因此可以将统称为“基于几何数据
分析”的方法。这些方法能根据应用程序的实
际行为动态调整绘制负载的分配,具有较高的
智能性。
基于几何数据分析的动态方法
的不足
1.
负载估算的精确度不足
2.
计算开销过大
3.
实施难度较大
基于时空转换的并行绘制负载
平衡算法的原理
1s
2s
(a)
3s
(b)
(c)
基于时空转换的并行绘制负载
平衡算法的原理





以绘制服务器的工作时间作为其负载的度量
通过适当的算法将时间值转换为空间值
空间值控制对绘制服务器的任务分配
放弃了庞大的几何数据
一种相对 “轻量”的算法
流程
1.
2.
3.
4.
5.
客户端发送几何变换矩阵和屏幕区域Aik 到绘
制节点Si,启动第k帧绘制,并通知负载平衡
模块;
Si完成Aik像素的绘制,通知客户端;
客户端主程序通知负载平衡模块,后者记录
绘制时间tik;
所有Si绘制结束,拼接图像并输出;
负载平衡模块进行计算,得出屏幕剖分方式
{Aik+1},用做下一帧绘制任务分配。
wi
hi
(a)
1
2 5
3
4
(b)
6
7
(c)
8
t1 t2 t3
屏幕剖分的三种方式
t4 t5 t6 t7 t8
(d)
校区漫游程序实际效果
横轴为绘制帧数,纵轴为时间(秒),蓝线不使用负载平
衡控制(固定分割屏幕),红线使用负载平衡控制。
横轴为绘制帧数,纵轴为最短绘制时间和最长绘制时间之比,
蓝线不使用负载平衡控制(固定分割屏幕),红线使用负载平
衡控制
实用的多屏并行绘制系统MSPR




保留模式的分布并行绘制系统
类OpenGL的保留模式编程API
对应用程序透明的图形对象分布策略,
包括图形对象定义、删除、远程调用、
绘制同步等机制
多屏高分辨率拼接显示
高层架构
Issue1
-基于PC 集群的并行绘制
Issue2
-投影仪阵列的无缝拼接显示

几何校正



实现投影仪间的象素级拼接;
去除投影仪间的高亮区域;
图形校正


实现单投影仪内部的均匀显示
实现多投影仪间的色彩,亮度平滑过渡
几何校正
-方案1:硬件校正
几何校正
-方案2:软件实现

三种拼接方式:
几何校正
-投影系统
几何校正
-软件校正系统
几何校正
-算法流程
(b)
(a)
(c)
(d)
图形校正
-常见问题
图形校正
-解决方案
色彩匹配

1. 从相机中提取投影仪色彩特征‘
2. 与标准色彩匹配;
3. 简化算法
边融合算法



硬件实现:物理过滤器
软件实现:Alpha通道设置
MSPR Demo: Alley
MSPR Demo: Atlantis
MSPR Demo: Zju-Campus
下一步工作






继续深入研究保留模式并行绘制体系结构
将保留模式并行绘制技术应用于大规模虚拟显
示和仿真系统
构建超高分辨率投影墙
研究sort-last保留模式并行绘制结构
研究sort-first/sort-last混合型保留模式并行绘
制体系结构
结合HLA规范,将并行绘制技术应用于分布式
虚拟现实仿真环境