标准 - Shanghai SQL Server User Group > Home

Download Report

Transcript 标准 - Shanghai SQL Server User Group > Home

1er Simposio Latinoamericano
数据质量基础
Miguel Angel Granados Troncoso
议程
•
•
•
•
场景
定义, 流程 和 标准
数据质量服务(DQS)
DQS 解决方案
1
Required 9s
& Protection
Rapid Data
Exploration
2
6
Managed SelfService BI
9
Scale on
Demand
Organizational
Compliance
Blazing-Fast
Performance
5
10
Fast Time
to Solution
3
7
Peace of
Mind
4
8
Credible,
Consistent Data
Scalable
Analytics & DW
11
12
Optimized
Productivity
Extend Any
Data, Anywhere
#7
可信赖,准确的数据
数据越准确,企业表现越佳¹
% 数据准确率
每个员工每周花费在数据搜索上的小时
数
表现最好(二成企
业)
表现中等(五成
企业)
表现最差(三成企
业)
Delivered with
1.2hrs
91%
2.8hrs
68%
低于 50%
Data
Quality
Services
¹Source: “Turning Pain into Productivity with Master Data Management,” Aberdeen Group, Feb 2011
6hrs
Master
Data
Services
Single BI
Semantic
Model
为何数据质量如此重要?
数据质量问题导致美国企业一年多花费超过600亿美元
Data Warehousing Institute (TDWI)
由于数据质量产生的开销包括:
• 过量的库存
• 更高的供应链开销
• 更高的市场开销
• 结算
• 其他…
Common Data Quality Issues
数据质量
问题
格式
数据的格式是否有统一的标准?
标准
数据的定义是否前后一致?
数据问题举例
电话号码格式:
xxxxxxxxxx,
(xxx) xxx-xxxx
1.xxx.xxx.xxxx, etc.
‘Gender code’ = M, F, U
‘Gender code’ = 0, 1, 2
一致
同样类型的数据是否表达了同样的意义?
企业收入的呈现方式 ?
美元, 欧元, 都是?
完整
是否所有的数据都存放完整了?
20% 的客户的名字是空值,
50% 的zip-codes 是 99999
准确
数据是否准确地反映了业务?
供应商处在‘Active’ 状态,但是六年前就倒闭了
有效
数据是否都在合理的区间内?是否有约束?
工资的区间应该在
60,000-120,000
冗余
数据是否有冗余?
John Ryan 和Jack Ryan 都出现在系统里边– 他们是同一个
人吗?
议程
场景
• 定义,流程和标准
• 数据质量服务(DQS)
• DQS 解决方案
数据
战略
IT
数据
数据管理
数据质量
策略
数据正
确性
数据管理
Data Standarization
Data Management
Master Data Management
数据质量
• 数据质量意味着验证数据是否合适用来支持最终的决策和计
划。
Domain
Management
Discovery
Value
Management
Knowledge
Discovery
质量控制要点
•
•
•
•
了解数据的上下文
分析数据
建立和维护数据质量的标准
跟踪数据质量
数据质量解决方案的需求
跟踪检测数据的状态,活动
情况和质量。
分析数据源;
为解决数据质量产生的问
题.
修复,删除或者丰富原本错
误,不完整的数据。
监控
清除
分析
匹配
在同个或者不同的数据集里
找出,关联,并且清除冗余
数据
如何管理数据质量?
管理数据质量需要建立和实施以下步骤:
– 角色
– 职责
– 策略
– 流程
– 技术
人
技术
流程
数据质量标准
ISO 8000
ISO 22745
•数据质量原则
•定义数据质量
•保证数据质量的流
程
•定义技术文档
•根据文档来控制数
据
International Association for Information and Data Quality
http://www.iaidq.org/
议程
场景
定义,流程和标准
• 数据质量服务 (DQS)
• DQS 解决方案
数据质量服务(DQS) 是一种数据质量解决方案,使得IT专家和数据
专家可以轻松地提高数据的质量。
DQS 概念
知识驱动
根据DQKB,提高数据质量
语义
数据绑定到定义域
信息发掘
通过数据样本和用户反馈获得附加的信息
可扩展
通过第三方数据提供者来支持用户产生的信息和IP
易用
良好的用户体验,提高效率
数据质量知识库 (DQKB)
• 有关数据的知识库:
– 域定义了数值以及每个属性的规则
– 匹配原则定义了如何去识别逻辑上重复的记录
Domains
Composite
Domains
Matching Policy
Matching Rules
DQS 资料来源
Windows Azure Marketplace™ Data Market
通过DataMarket的数据服务来清理和丰富数据
第三方数据提供者
与第三方数据提供者进行数据整合
DQS Data Store
从网站下载DQS相关的信息
企业数据
在企业自己的数据源里创建数据域
附带的信息
DQS附带了一系列数据域
什么是域?
• 域只是针对某个属性
• 域包涵了数据规则
域
• 域可以是单独的或者复合的
数值
参考数据
规则和关系
什么是数据服务?
• Azure Marketplace 提供了专门的数
据清理服务

建立帐号

订阅服务

把域绑定到相应的服务
KB
Address
Name
First Name
Family Name
DQS 架构
DQS Clients
DQS Client
DQS Cloud Services
DQS Store - KB, Domains
DataMarket - Categorized Reference Data
Knowledge Discovery
and Management
DQS Server
Interactive DQ Projects
3rd Party
Reference Data
Reference Data API
(Browse, Set, Validate…)
Reference Data API
(Browse, Get, Update…)
DQS Engine
Knowledge Discovery
Data Profiling
Exploration
Matching
Other DQS Clients
DQ Projects Store
Common Knowledge Store
SSIS DQS Cleansing Component
Future Clients: Excel,
SharePoint,
MDS…
Reference Data
Services
Cleansing
Administration
DQ Active
Projects
Published KBs
© 2010 Microsoft Corporation. Microsoft Materials - Confidential. All rights reserved.
Reference Data
议程
场景
定义,流程和标准
数据质量服务 (DQS)
• DQS 解决方案
DQS 流程
Knowledge Management
Reference
Data
Build
Enterprise
Data
Integrated
Profiling
Status
Progress
Knowledge
Base
Notifications
Use
DQ Projects
•
•
•
交互型的清理-DQS项目
分析数据源的质量
自动纠正以及丰富数据
手动批准或者拒绝数据服务方提供的建议
批量清理- 使用 SSIS
DQS server
Knowledge Base
Values/Rules
Reference Data Definition
Matching Policy
SSIS Package
Source
DQS Cleansing
Component
Destination
SSIS Data Flow
匹配 – DQS 项目
为何匹配?
• 从数据源中识别重复数据
• 建立统一的数据
DQS 匹配
•
•
•
•
建立匹配策略
培训
建立匹配项目
选择什么数据需要保留
议程
场景
定义,流程和标准
数据质量服务 (DQS)
DQS 解决方案
Q&A
Personal Blog
http://www.granadostroncoso.com.mx
PASS Mexico City Chapter
http://mexico.sqlpass.org
@PASSMXDF
SolidQ Journal
http://www.solidq.com/sqj/Pages/Home.aspx
Microsoft
http://www.microsoft.com/sqlserver/en/us/solutions-technologies/SQL-Server2012-business-intelligence.aspx