Slajd 1 - Warszawska Wyższa Szkoła Informatyki (WWSI)

Download Report

Transcript Slajd 1 - Warszawska Wyższa Szkoła Informatyki (WWSI)

SQL Server 2012 Codename Denali

Data Quality Services

Grzegorz Stolecki Specjalne podziękowania dla Marcina Szeligi – współautora slajdów

Agenda

• • • Problem jakości danych Usługa Data Quality Services – Baza wiedzy – Oczyszczanie danych – Parowanie i deduplikacja danych Integracja z usługą SSIS O mnie…

Grzegorz Stolecki

[email protected]

• • Konsultant i trener Business Intelligence od 1998 roku SQL Server MVP

To jakość jest najważniejsza

• Jakość danych jest miarą ich przydatności – Zależy od użycia danych • Ilość cyfrowych danych podwaja się co niecałe dwa lata – W tym roku utworzonych zostało już 1,8 zetabajta danych

Typowe problemy z danymi

Cecha

Integralność Kompletność Dokładność Poprawność Unikatowość Wiarygodność

Problem Przykład

Te same dane mają różne znaczenia, a te same znaczenia reprezentowane są przez różne dane Część danych nie istnieje lub jest nieznana Dane są niedokładne, zaokrąglane lub pogrupowane Płeć oznaczana za pomocą symboli K/M w jednym systemie i symboli M/F w innym Nazwiska 20% klientów są nieznane, 50% kodów pocztowych to 99999 Odległość z Katowic do Warszawy jest większa niż z Warszawy do Katowic Dane nie są zgodne z regułami biznesowymi Te same dane przechowywane są wielokrotnie Dane nie odzwierciedlają rzeczywistości Najmłodszy klient ma 0 lat Mężczyzna jest matką trojga dzieci W bazie klientów figurują Barack Obama i Barak Obama – czy to ta sama osoba?

Firma wciąż ma status aktywnego dostawcy, chociaż zbankrutowała 5 lat temu

Data Quality Services

Monitorowanie procesu poprawy jakości danych Monitorowanie Oczyszczanie Poprawa błędnych i uzupełnienie niekompletnych danych Ocena jakości danych Profilowanie Deduplikacja Wyszukanie i usunięcie powtarzających się danych

Cechy charakterystyczne DQS

Oparte na wiedzy Uwzględniające semantykę Uczące się Otwarte i rozszerzalne Łatwe w użyciu

• Korzystające z bazy wiedzy (DQKB) • Domeny reprezentują znaczenie danych Dodatkowe informacje gromadzone są podczas oczyszczania danych • Korzystające z baz wiedzy użytkownika i firm

trzecich

• Upraszczające codzienną pracę z danymi

Funkcje Data Quality Services

Zarządzanie wiedzą i danymi referencyjnymi • Tworzenie i zarządzanie bazami wiedzy • Odkrywanie informacji w przykładowych danych • Praca z bazami wiedzy firm trzecich Oczyszczanie i deduplikacja danych • Poprawa, deduplikacja i standaryzacja danych Administracja • Monitorowanie i zarządzanie procesem poprawy jakości danych

Parowanie i deduplikacja

1.

Określenie reguł porównywania Identyfikacja duplikatów 2. Trening 3.

Wykrycie duplikatów Wybór poprawnych rekordów Usunięcie duplikatów • • • • Microsoft Corporation, Bill gates, 1 Microsoft way, Redmond, WA, 98052 Microsoft, Gates, One Microsoft way, Redmond WA Microsoft Corp, William Henry Gates, 1 Microsfot way, Redmond, WA Microsfot, W. H. Gates, Redmond, WA

Klient DQS – Wyniki parowania

Integracja z usługą SSIS

SSIS Data Flow Reguły Dane referencyjne Źródło danych Pakiet SSIS Zadanie Data Correction Przeznaczenie danych

DQS - Podsumowanie

Bazujące na wiedzy Bogate bazy wiedzy Automatyczne wzbogacane podczas oczyszczania danych Raz utworzona (centralna) baza wiedzy może być używana w wielu projektach DQS Proste w użyciu Zaprojektowane dla użytkowników biznesowych Intuicyjne Natychmiast gotowe do użycia Otwarte Korzystające z baz wiedzy znajdujących się w Chmurze Bazy wiedzy tworzone przez użytkowników Zintegrowane z usługą SSIS

Dziękuję za uwagę !

Q & A