Transcript Slajd 1 - Warszawska Wyższa Szkoła Informatyki (WWSI)
SQL Server 2012 Codename Denali
Data Quality Services
Grzegorz Stolecki Specjalne podziękowania dla Marcina Szeligi – współautora slajdów
Agenda
• • • Problem jakości danych Usługa Data Quality Services – Baza wiedzy – Oczyszczanie danych – Parowanie i deduplikacja danych Integracja z usługą SSIS O mnie…
Grzegorz Stolecki
• • Konsultant i trener Business Intelligence od 1998 roku SQL Server MVP
To jakość jest najważniejsza
• Jakość danych jest miarą ich przydatności – Zależy od użycia danych • Ilość cyfrowych danych podwaja się co niecałe dwa lata – W tym roku utworzonych zostało już 1,8 zetabajta danych
Typowe problemy z danymi
Cecha
Integralność Kompletność Dokładność Poprawność Unikatowość Wiarygodność
Problem Przykład
Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane Część danych nie istnieje lub jest nieznana Dane są niedokładne, zaokrąglane lub pogrupowane Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999 Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic Dane nie są zgodne z regułami biznesowymi Te same dane przechowywane są wielokrotnie Dane nie odzwierciedlają rzeczywistości Najmłodszy klient ma 0 lat Mężczyzna jest matką trojga dzieci W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba?
Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu
Data Quality Services
Monitorowanie procesu poprawy jakości danych Monitorowanie Oczyszczanie Poprawa błędnych i uzupełnienie niekompletnych danych Ocena jakości danych Profilowanie Deduplikacja Wyszukanie i usunięcie powtarzających się danych
Cechy charakterystyczne DQS
Oparte na wiedzy Uwzględniające semantykę Uczące się Otwarte i rozszerzalne Łatwe w użyciu
• Korzystające z bazy wiedzy (DQKB) • Domeny reprezentują znaczenie danych • Dodatkowe informacje gromadzone są podczas oczyszczania danych • Korzystające z baz wiedzy użytkownika i firm
trzecich
• Upraszczające codzienną pracę z danymi
Funkcje Data Quality Services
Zarządzanie wiedzą i danymi referencyjnymi • Tworzenie i zarządzanie bazami wiedzy • Odkrywanie informacji w przykładowych danych • Praca z bazami wiedzy firm trzecich Oczyszczanie i deduplikacja danych • Poprawa, deduplikacja i standaryzacja danych Administracja • Monitorowanie i zarządzanie procesem poprawy jakości danych
Parowanie i deduplikacja
1.
Określenie reguł porównywania Identyfikacja duplikatów 2. Trening 3.
Wykrycie duplikatów Wybór poprawnych rekordów Usunięcie duplikatów • • • • Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052 Microsoft, Gates, One Microsoft way, Redmond WA Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA Microsfot, W. H. Gates, Redmond, WA
Klient DQS – Wyniki parowania
Integracja z usługą SSIS
SSIS Data Flow Reguły Dane referencyjne Źródło danych Pakiet SSIS Zadanie Data Correction Przeznaczenie danych
DQS - Podsumowanie
Bazujące na wiedzy Bogate bazy wiedzy Automatyczne wzbogacane podczas oczyszczania danych Raz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS Proste w użyciu Zaprojektowane dla użytkowników biznesowych Intuicyjne Natychmiast gotowe do użycia Otwarte Korzystające z baz wiedzy znajdujących się w Chmurze Bazy wiedzy tworzone przez użytkowników Zintegrowane z usługą SSIS