hdfs-prezentacja

Download Report

Transcript hdfs-prezentacja

HDFS
Hadoop Distributed File System
Problem
• Chcemy odczytać a następnie przetworzyć
1 TB danych
– 1 komputer, 4 dyski, 100Mb/s każdy = 45 min
– 10 komputerów, 4 dyski, 100MB/s każdy = 4,5 min
• Problemy
– Niezawodność komputerów
– Wielkość klastra
– Wspólna infrastruktura (wydajna i niezawodna)
Rozwiązanie - Hadoop
• Hadoop Core
– Rozproszony system plików
– Map/Reduce
•
•
•
•
Open Source – Apache
Java
Środowiska: Linux, Windows, OS X, Solaris
Start w 2004
“MOVING COMPUTATION IS
CHEAPER THAN MOVING DATA”
HDFS
• Zarządzane przez jeden węzeł – transmisja z wieloma
• Pliki są dzielone
– Transparentnie
– Typowa wielkość bloków 64 MB (4KB Unix)
– Replikowane
•
•
•
•
Wręcz liniowa skalowalność
Dostęp poprzez Java, C, linię komend
Działa na istniejącym systemie plików (ext3, ext4, XFS)
Google GFS
Typy węzłów
• HDFS
– NameNode
– DataNode
• Map/Reduce
– JobTracker
– TaskTracker
NameNode
•
•
•
•
•
Tylko jeden w klastrze
Utrzymuje informacje o systemie plików
Single Point of Failure
Dane trzymane w pamięci RAM
Liczba plików w klastrze ograniczona
wielkośćią pamięci RAM
• Secondary NameNode – przechowuje kopię
metadanych
DataNode
•
•
•
•
Wiele w klastrze
Zarządza blokami danych
Obsługuje klienta
Okresowo wysyła zawartość węzła do
NameNode
Architektura
Block Placement
• Domyślnie 3 repliki
• Umiejscowienie (Rack Awareness)
– Na tym samym węźle
– W innej szafie
– W jeszcze innej szafie
• Dane czytane są z najbliższego miejsca
• Re-replikacja
Block Placement
Block Placement
Poprawność danych
• CRC32
• Tworzenie pliku
– Suma kontrolna na każde 512 bajtów –
generowane przez klienta
– Przechowywane na DataNode
• Odczyt pliku
– Dane i suma kontrolna przesyłana do klienta I
weryfikowana
• Okresowa walidacja przez DataNode
Web UI
• NameNode
• DataNode
• JobTracker
Bonus
•
•
•
•
•
•
•
•
•
•
•
Import Checkpoint
Rebalancer
Rack Awareness
Safemode
Fsck
Recovery Mode
Upgrade and rollback
File permissions and security
Scalability
Synthetic Load Generator
WebHDFS REST API
Kto korzysta
•
•
•
•
•
•
•
•
•
•
Amazon
Adobe
Alibaba
eBay
Facebook
IBM
Last.fm
LinkedIn
Powerset / Microsoft
Yahoo – 40 tys. Komputerów, 4500 węzłów
A W PRAKTYCE…