Tecnologias para Data warehouse

Download Report

Transcript Tecnologias para Data warehouse

SETEMBRO, 2010 | SÃO PAULO
CÓDIGO DA SESSÃO: BI301
Tecnologias para Data Warehouse:
SQL Server Enterprise, Fast Track e PDW
Gustavo Gattass Ayub
Senior Consultant
Microsoft Services
Agenda
A visão da Microsoft para Data Warehousing
Desafios na construção de um DW
SQL Server Fast Track DW
SQL Server Parallel Data Warehouse
Perguntas…
3
A Visão da Microsoft
Menor TCO
4
Escalabilidade
Agilidade
Tendências no Mercado de DW
DBMS Built
for DW
DW Appliance
Mixed Workloads
5
Melhorias no SQL Server 2008
SAP-BW Adapter
Partitioned Table Parallelism
New - Report Builder 2.0
Teradata Adapter
Data Compression
Enhanced Data Visualization
Oracle Adapter
Backup Compression
MERGE SQL Statement
Resource Governor
Rendering for Word & Excel
IIS Agnostic Report Deployments
Data Mining Engine Improvements
Change Data Capture (CDC)
Persistent Lookups
Data Profiling
6
Star Join Query Optimization
MDX Query , Writeback
Optimizations
Policy Based Administration
Best Practice Design Alerts
Reference Architectures
Scale-out AS engine & backup
Investimentos no SQL Server
BI Self-Service gerenciado
Gerenciamento multi-servidor
Virtualização
& Live Migration
7
Suporte MPP para DW de
10s a 100s de TB
Plataforma de Banco de Dados
Relacional Escalável
Appliances escalonáveis
Ferramentas e modelos
consistentes e familiares
Integração simples com o BI
Microsoft
Serviço na nuvem auto
gerenciável, em alta
disponibilidade
Microsoft Data Warehousing
Serviços
8
Desafios na construção de um DW
9
DW no SQL Server
Deployments
> 1Tb… centenas…
> 5Tb… dezenas…
Abordagens para implantação
Existem muitas…boas e ruins…
10
Construir um DW no SQL Server
Por onde começar ?
Qual a melhor forma de se configurar o sistema ?
A janela de atualização está cada vez menor…
Como lidar com os grandes volumes de dados ?
Como garantir o desempenho das consultas ?
11
O típico ambiente de DW
1)
2)
3)
4)
1)
2)
3)
12
O servidor consome até 16 Gb/sec
enquanto que a SAN consegue entregar no
máximo 2 Gb/sec…
Muitos discos preparados para I/O aleatório
O sistema é I/O Bound
Consultas lentas
Uma SAN enorme ($$$)
Um Servidor
($$$)
O SMP
queenorme
há de
errado
Tudo conectado
nisso ?
CPU Feed Rate
13
DISK
FC
HBA
SQL Server
Read Ahead Rate
A
B
A
B
HBA Port Rate
DISK
A
A
B
STORAGE
CONTROLLER
CACHE
FC
HBA
FC SWITCH
CPU CORES
WINDOWS
SQL SERVER
CACHE
SERVER
O problema do balanceamento
LUN
A
B
DISK
DISK
B
LUN
Switch Port Rate
SP Port Rate
LUN Read Rate
Disk Feed Rate
Workloads distintos
Online Transaction Processing (OLTP)
Relação balanceada entre leitura e
escrita (60%-40%)
Alto volume de transações (insert e
update)
Transações curtas normalmente
Consultas envolvendo poucos
registros
Volume de Dados menor (poucos
Tb’s)
Data Warehousing
Acesso para leitura (90%-100%)
Poucos updates, alto volume de bulk
inserts
Alto volume de consultas (10s K / hr)
Baixo tempo de resposta esperado
para as consultas
Variedade de modelos: Snowflake,
star schemas, normalizado
Consultas complexas envolvendo
filtros, joins, group-by, agregações
Alto volume de dados (10s Tb-Pb)
14
Consulta típica no DW
SELECT
L_RETURNFLAG, L_LINESTATUS, SUM(L_QUANTITY) AS SUM_QTY,
SUM(L_EXTENDEDPRICE) AS SUM_BASE_PRICE,
SUM(L_EXTENDEDPRICE*(1-L_DISCOUNT)) AS SUM_DISC_PRICE,
SUM(L_EXTENDEDPRICE*(1-L_DISCOUNT)*(1+L_TAX))
AS SUM_CHARGE,
AVG(L_QUANTITY) AS AVG_QTY,
AVG(L_EXTENDEDPRICE) AS AVG_PRICE,
AVG(L_DISCOUNT) AS AVG_DISC,
COUNT(*) AS COUNT_ORDER
FROMLINEITEM
GROUP BY
L_RETURNFLAG,
L_LINESTATUS
ORDER BY
L_RETURNFLAG,
L_LINESTATUS
Scan Intensive
Hash Joins
Aggregations
15
SQL Server Fast Track DW
16
SQL Server Fast Track DW
Uma solução que permite aos clientes e parceiros
acelerar a implantação de um Data Warehouse
Um método para se desenhar uma solução de
DW balanceada com o menor custo possível
Conjunto de configurações de referência,
desenvolvidas em conjunto com fabricantes de
hardware
Boas práticas para carga, gerenciamento e acesso
aos dados
17
Componentes do Fast Track
Software:
• SQL Server 2008 Enterprise
• Windows Server 2008
Configuration guidelines:
• Physical table structures
• Indexes
• Compression
• SQL Server settings
• Windows Server settings
• Loading
Hardware:
• Tight specifications for servers,
storage and networking
• ‘Per core’ building block
18
Fast Track Data Warehouse 2.0
SI Solution Templates
19
SQL Server
Windows Server OS
CPU
Storage
Processor
Disk Array
Host Storage
Adaptor
Server
20
Storage Interconnect
Arquitetura do Fast Track DW 2.0
Storage Enclosure
Balanceamento de Componentes
CPU
Maximizar a taxa de consumo de dados no cache para o
workload em questão
Controladora
(Storage Processor)
Garantir que os dados serão transmitidos até o limite
das CPU’s
HBA
Compor os dados transmitidos a partir das diversas
controladoras até o limite das CPU’s
Switch
Otimizado para a realização de I/O sequencial
Discos
Otimizados para oferecer a melhor relação
preço/throughput
21
DISK
FC
HBA
A
B
A
B
DISK
A
A
B
STORAGE
CONTROLLER
CACHE
FC
HBA
FC SWITCH
CPU CORES
WINDOWS
SQL SERVER
CACHE
Balanceamento para...
SERVER
Componente
LUN
A
B
DISK
DISK
B
LUN
Métricas de Avaliação
Maximum Consumption Rate – É a capacidade do SQL
Server processar dados para uma combinação Servidor&CPU
dado uma consulta padrão.
É medida por physical core
Considera que os dados estão compactados
O Fast Track 2.0 considerou um mix de consultas a partir do TPC-H
User Data Capacity – É o volume de dados máximo
suportado por uma dada configuração assumindo-se um fator
de compactação da ordem de 2,5:1.
22
Maximum Consumption Rate
Resultados obtidos a partir de configuração base:
Servidor HP, 2 sockets e 8 cores
Configuração Balanceada
Throughput Máximo observado por core = 200 Mb/s
300 MB/s
500 MB/s
300 MB/s
300 MB/s
Fiber Switch
MCR 1.6 GB/s
Windows Server OS
HBA
HBA
Server
23
500 MB/s
Storage Enclosure
300 MB/s
500 MB/s
Min
2
GB/s
Min 2
GB/s
300 MB/s
300 MB/s
300 MB/s
500 MB/s
300 MB/s
Storage Enclosure
Configuração de Storage
RAID-1 é usado para permitir o I/O sequencial
2 disk RAID-1 array por CPU core
Utilização de affinity entre o RAID-1 array e um CPU core
Dados são distribuídos uniformemente no array utilizando-se particionamento
Permite que os dados sejam carregados de forma sequencial
I/O sequencial requer 1/3 da quantidade de discos versus I/O
aleatório para que se obtenha o mesmo desempenho
24
Arquivos do SQL Server
User Databases
No mínimo um Filegroup contendo um data file por LUN
1:1 LUN to CPU - core affinity
Arquivos com mesmo tamanho
Distribuição uniforme dos dados através das LUNs (balanceamento)
Transaction Log é alocado em LUN específica
Tempdb
Um arquivo por LUN (todos com mesmo tamanho)
25
Scan Sequencial
ARY01D1v01
4MB
ARY02D1v03
4MB
ARY03D1v05
4MB
ARY04D1v07
4MB
DB1-1.ndf
DB1-3.ndf
DB1-5.ndf
DB1-7.ndf
ARY01D2v02
ARY02D2v04
ARY03D2v06
ARY04D2v08
4MB
DB1-2.ndf
4MB
DB1-4.ndf
4MB
DB1-6.ndf
4MB
DB1-8.ndf
Alocação contínua, data striping, pre-fetch e read-ahead
trabalhando em conjunto para realizar I/O sequencial
eficiente
Cada elemento é utilizado para aumentar o desempenho
26
Configuração Mínima (Exemplo)
27
Configurações Disponíveis
2 processadores: 4 – 12 TB
HP ProLiant DL380 G6
HP ProLiant DL385 G6
IBM System x3650 M2
Dell Power Edge R710
Bull Novascale R460 E2
4 processadores: 12 – 24 TB
HP ProLiant DL 580 G5
HP ProLiant DL 585 G6
IBM System x3850 M2
Dell Power Edge R900
Bull Novascale R480 E1
8 processadores: 6 – 48 TB
HP ProLiant DL 785 G6
IBM System x3950 M2
28
Roadmap do Fast Track
2.0
Enterprise ETL Services
Star Join Query Optimizations
Data Compression
Partitioned table parallelism
2008
New Reference Architectures from IBM
Updated Configurations from HP, Dell and
Bull
EMC as a Service Partner for Fast Track
2009
Fast Track vNext
Future Partners to create new
Validated Reference
Architectures with Test Harness
Incorporates SQL vNext
2010
Beyond
Test Harness for Partners
DW Reference Architectures
Predictable performance at low
cost
Faster time to solution
Microsoft to create Test Harness for
validation of new Fast Track
configurations
NEC to validate new Reference
Architectures
?
29 Information Subject to Change
Preliminary
?
?
SQL Server Parallel Data Warehouse
30
Parallel Data Warehouse
O appliance de data warehouse altamente escalável
Escala de 10s a 100s de TB
Sistema MPP (Massively Parallel Processing)
Escolha do fornecedor de hardware
Custo baixo (hardware commodity)
Integração com BI Microsoft
31
Arquitetura do PDW
Nexus
Query
Tool
MS BI
(AS, RS)
Other
3rd Party
Tools
SQL
Internet
Explorer
Compute Node
IIS
Data Access
Compute Nodes
Compute Nodes
Data Movement Service
Admin
Console
(OLEDB, ODBC, ADO.NET, JDBC)
User Data
SQL
Parser
Core
Engine
Services
DMS
Manager
Data
Movement
Service
MPP Engine Coordinator
SQL Server
Backup Node
Data Movement Service
Landing Zone Node
DW
Authentication
DW
Configuration
DW
Schema
TempDB
SQL Server
Control Node
32
Data Movement Service
Arquitetura do PDW (Cont.)
Storage Nodes
Database Servers
Control Nodes
SQL
Ativo / Passivo
SQL
Aplicações
SQL
SQL
SQL
Monitoramento
Landing Zone
Interface de Carga
(ETL)
SQL
SQL
SQL
Solução de Backup
Corporativo
Rede Corporativa
SQL
SQL
Backup Node
33
Dual Infiniband
SQL
Dual Fiber Channel
Management Servers
Spare Database Server
Rede Dedicada
Ultra Shared Nothing
34
Ultra Shared Nothing (Cont.)
35
Ultra Shared Nothing (Cont.)
36
Parallel Data Warehouse
Control Rack
37
Data Rack
Considerações Finais...
38
39
40
Por favor preencha a
avaliação
© 2008 Microsoft Corporation. Todos os direitos reservados. Microsoft, Windows, Windows Vista e outros nomes de produtos são ou podem ser marcas registradas e/ou marcas comerciais nos EUA e/ou outros países.
Este documento é meramente informativo e representa a visão atual da Microsoft Corporation a partir da data desta apresentação. Como a Microsoft deve atender a condições de mercado em constante alteração, este
documento não deve ser interpretado como um compromisso por parte da Microsoft, e a Microsoft não pode garantir a precisão de qualquer informação fornecida após a data desta apresentação. A MICROSOFT NÃO DÁ
QUALQUER GARANTIA, SEJA ELA EXPRESSA, IMPLÍCITA OU ESTATUTÁRIA, REFERENTE ÀS INFORMAÇÕES DESTA APRESENTAÇÃO.