Transcript MPEG-4
MPEG-4
Ein Überblick
Vortrag in der Projektgruppe „Verteilte Multimedia-Serversysteme“ WS 00/01
Gliederung
Einführung Visual Audio DMIF Systems Profiles 2
Wiederholung
Technik von MPEG-2: Intraframe-Codierung DCT, RLE Interframe-Codierung Motion Compensation I-, P-, B-Frames hierarchische Codierung Base Layer Enhancement Layer Einführung Visual Audio DMIF Systems Profiles 3
Überblick (1)
offizielle Bezeichnung: ISO/IEC 14496 Lizenzierung kostenpflichtig Tools auf CD-ROM für $40 erhältlich fertiggestellt im Oktober 1998 Anfang 1999: internationaler Standard Ende 1999: MPEG-4 Version 2 nur Erweiterungen, keine Veränderungen neue Erweiterungen in Arbeit Einführung Visual Audio DMIF Systems Profiles 4
Überblick (2)
MPEG2 Kompression von Videodaten MPEG4 erweiterte Funktionalität Kompression Flexibilität keine Festlegung auf bestimmtes Verfahren oft nur Interfaces standardisiert stattdessen: Sammlung verschiedener Tools Einführung Visual Audio DMIF Systems Profiles 5
Anwendungen
Videos Fußball im Pay-TV nicht bezahlt: kein Ball bezahlt: Ball erscheint Mobilfunk Internettelefonie Interaktive Videospiele Videokonferenzen Einführung Visual Audio DMIF Systems Profiles 6
Zielgruppen
Autoren Wiederverwendbarkeit Flexibilität Rechteverwaltung Netzwerkbetreuer Framework - „Unterbau“ muss vom Netzwerkbetreiber bereitgestellt werden Endbenutzer hohes Maß an Interaktivität Qualität auch bei niedrigen Bitraten Fehlerrobustheit mobil Einführung Visual Audio DMIF Systems Profiles 7
Grundidee
Szene wird in „Einheiten“ unterteilt Media Objects Zusammensetzung der Media Objects wird gespeichert Szenengraph Einführung Visual Audio DMIF Systems Profiles 8
Media Objects
Video Objects Natural Kamera Synthetic computergeneriert Audio Objects Natural Mikrofon Synthetic computergeneriert Einführung Visual Audio DMIF Systems Profiles 9
Szenengraph (1)
Szenengraph sorgt für korrekte Positionierung der Media Objects räumlich zeitlich Realisiert durch gerichteten, azyklischen Graphen scene voice Person 2D Background picture Video Einführung Visual Audio DMIF Systems Profiles 10
Szenengraph (2)
jedes Media Object besitzt ein eigenes Koordinatensystem Szenengraph verfügt selbst auch über ein Koordinatensystem durch Berechnung: „virtuelle Kamera“ möglich Blickwinkel Ausschnitt Einführung Visual Audio DMIF Systems Profiles 11
Hierarchie
Media Objects einer Szene sind hierarchisch sortiert Blätter: Primitive Media Objects Still Images - unbewegte Bilder (z. B. Hintergrund) Video Objects (z. B. Person) Audio Objects (z. B. Stimme) „komplette“ Person Bild einer Person Einführung Visual Audio Stimme einer Person DMIF Systems Profiles 12
Streams
MPEG-Standards basieren auf Datenströmen (Streams) in MPEG-2 drei Arten von Streams Packetized Elementary Stream Audio- oder Videostrom (in Pakete aufgeteilt) Program Stream „Programme“ codiert als PES Anwendungen ohne Fehler (DVD, ...) Transport Stream für unsichere Übertragungskanäle Einführung Visual Audio DMIF Systems Profiles 13
Übertragung
Sender Objekte komprimieren 1 Primitive Media Object 1 Stream Zusammenfassen zu einem Stream (Multiplex) Empfänger Stream trennen (Demultiplex) in Elementary Streams zerlegen Objekte einlesen (Decode) Szenengraph einlesen 1 Elementary Stream (Decode) Zusammensetzen (Composition) und Aufbauen (Rendering) der Szene Einführung Visual Audio DMIF Systems Profiles 14
Schichtenmodell
Aufbauen der Szene Decompression Layer Synchronisation Layer Delivery Layer Netzwerk / CD / Kabel Dekodieren der Datenströme Zeitstempel Fehlerkorrektur Datenempfang Demultiplex 15
Aufbauen einer Szene
Media Objects .
.
.
Scene Graph Composition Rendering Einführung Visual Audio DMIF Systems Profiles 16
Gliederung
Einführung Visual Audio DMIF Systems Profiles 17
Visual
Kodierung von visuellen Objekten in natürlichen und synthetischen, bewegten Bildern Verknüpfung mit Ton möglich Ziel: breites Anwendungsfeld effiziente Komprimierung erreichen Einführung Visual Audio DMIF Systems Profiles 18
Videoformate
Bitraten min. 5kbit/s max. 10 Mbit/s Formate progressive interlaced Auflösungen min. sub-QCIF (172 x 144 Pixel) max. > HDTV (1440 x 1152 Pixel) Einführung Visual Audio DMIF Systems Profiles 19
„Content-based“ Funktionalität
Video Objects einzeln kodiert Random Access auf einzelnen Objekten play, pause, forward, ...
Manipulation einzelner Video Objects Bsp.: Text auf sich bewegendes Video Object legen Einführung Visual Audio DMIF Systems Profiles 20
Skalierbarkeit (1)
Complexity Scalability (Encoder) Streams verschiedener Komplexität erzeugen Complexity Scalability (Decoder) festen Stream in verschiedenen Komplexitätsstufen abspielen schwache Decoder decodieren nur Teil des Streams Einführung Visual Audio DMIF Systems Profiles 21
Skalierbarkeit (2)
Spatial Scalability (Decoder) Auflösung einzelner Video Objects skalierbar Temporal Scalability (Decoder) nicht alle Frames werden wiedergegeben Quality Scalability (Encoder) Benutzung verschiedener Layer (s. MPEG-2) Einführung Visual Audio DMIF Systems Profiles 22
Natural Video Objects
natürliches Video Object besteht aus folgenden Informationen: Form (shape) Texturen (texture) Bewegungsinformationen (motion) zusätzliche Kompressionsmöglichkeit: Sprite Coding Einführung Visual Audio DMIF Systems Profiles 23
Shape Coding
Binary Shape Coding Matrix (Binary Alpha Map) definiert, ob Pixel zu Objekt gehört 0 - liegt nicht drin 255 - liegt drin Alpha Shape Coding definiert Transparenz Wert zwischen 0 (transparent) und 255 (undurchsichtig) Einführung Visual Audio DMIF 0 0 0 0 255 0 0 0 255 255 255 0 0 0 0 255 255 255 255 255 0 255 255 255 255 255 255 255 Systems Profiles 24
Texture Coding
gleiche Kodierung wie bei MPEG-2 Diskrete Kosinustransformation (DCT) Quantisierung Mapping auf 2D-/3D-Oberflächen möglich spezielle Transformation (Wavelet) Einführung Visual Audio DMIF Systems Profiles 25
Motion Coding
Motion Compensation Ähnlichkeiten in Bildfolgen ausnutzen P-VOP B-VOP I-VOP Zeit Einführung Visual Audio DMIF Systems Profiles 26
Sprite Coding
Hintergrund (Sprite) wird nur einmal übertragen auf Decoder-Seite in Buffer gespeichert nur noch Kamerapositionen werden geändert gute Kompressionsrate Einführung Visual Audio DMIF Systems Profiles 27
Synthetic Video Objects
Facial Animation - Animation von Gesichtern Body Animation 2D Meshes 3D Meshes View-dependent Scalability Einführung Visual Audio DMIF Systems Profiles 28
Facial Animation
Form, Textur und Gesichtsausdruck werden nur durch Parameter übergeben Facial Definition Parameters (FDP) Gesicht wird durch 84 FDPs beschrieben FDPs werden vom Decoder in Gesicht umgesetzt Animation: Facial Animation Parameters Gesichtsausdrücke Body Animation analog Einführung Visual Audio DMIF Systems Profiles 29
2D Meshes
Aufteilung des 2-dimensionalen Raumes in Polygone in MPEG-4 nur Dreiecke Textur wird über das Gittermodell gelegt Texture Mapping Animation Verschieben der Knotenpunkte Einführung Visual Audio DMIF Systems Profiles 30
View-dependent Scalability
wird in 3D-Welten benutzt ermöglicht Übertragung von Texturen nur sichtbare Informationen werden übertragen spart Bandbreite Berechnung auf Encoder- und Decoder Seite Rückkanal erforderlich Einführung Visual Audio DMIF Systems Profiles 31
Gliederung
Einführung Visual Audio DMIF Systems Profiles 32
Audio
Tools für Repräsentation (Sprache, Musik) Kompression Skalierbarkeit Effekte künstliche Herstellung Daten in Textform übergeben Effekte (Widerhall, ...) meistens nur Interface konkrete Implementierung flexibel Einführung Visual Audio DMIF Systems 33
Natural Audio Objects
Sprache spezielle Standards für Sprachoptimierung geringer Frequenzbereich geringe Bitrate Musik TwinVQ besser als MP3 MPEG-2 Advanced Audio Coding (AAC) Einführung Visual Audio DMIF Systems Profiles 34
Synthesized Speech
Text To Speech (TTS)-Interface Decoder wandelt Text in gesprochene Sprache um extrem niedrige Bitraten Unterstützung für phonetische Parameter Synchronisation mit Lippenbewegungen pause, resume, jump forward/backward Dialekte, Sprachunterstützung Einführung Visual Audio DMIF Systems Profiles 35
Synthesized Audio
MIDI (Musical Instrument Digital Interface) Synthesizer auf Decoder-Seite nur Noten und Information über Instrument werden übertragen spart Bandbreite Erweiterung: SAOL (Structured Audio Orchestra Language) Funktionalität von MIDI Definition des Instrumentes kann im Stream mitgeschickt werden Decoder setzt Instrumente und Noten zusammen Einführung Visual Audio DMIF Systems Profiles 36
Gliederung
Einführung Visual Audio DMIF Systems Profiles 37
Streaming
MPEG-4 Standard stellt flexibles Handling für Streams zur Verfügung kann auf beliebige Protokolle aufsetzen Verschiedenste Nutzungsarten möglich Internet Broadcast DVD, CD etc.
Einführung Visual Audio DMIF Systems Profiles 38
DMIF
Delivery Multimedia Integration Framework Sitzungsprotokoll Framework ähnlich FTP Unterschied: statt Daten werden Pointer übertragen, wo zu streamende Daten zu finden sind stellt Interface für Applikationen zur Verfügung DMIF Application Interface (DAI) Einführung Visual Audio DMIF Systems Profiles 39
Aufbau des DMIF
ESI ...
SL SL ...
synchronisation layer DAI FlexMux DMIF layer DNI RTP UDP/IP MPEG-2 TS Datei TransMux layer delivery layer Einführung Visual Audio DMIF Systems Profiles 40
1.
DMIF Ablauf
App. (local) DMIF (local) spricht DAI an Aufbau Sitzung zwischen DMIF und Applikation 2.
DMIF (local) DMIF (remote) Kommunikation über DNI baut Netzwerksitzung auf Local DMIF Application 1 DMIF 3.
DMIF (remote) App. (remote) Aufbau Sitzung zwischen DMIF und App. (lokal) 4 2 4.
App. (remote) App. (local) Kommunikation über 1, 2 und 3 Remote DMIF Application 3 DMIF Einführung Visual Audio DMIF Systems Profiles 41
Gliederung
Einführung Visual Audio DMIF Systems Profiles 42
Systems
Sammlung von Tools beschreiben Verhältnis zwischen den Objekten einer Szene Verhältnis wird auf 2 Ebenen beschrieben Binary Format for Scenes (BIFS) Object Descriptors (ODs) beschreiben Verhältnis der Streams eines Objektes zusätzliche Informationen (URL, Intellectual Property, ...) Einführung Visual Audio DMIF Systems Profiles 43
Zusätzliche Themen
User Interaction FlexMux Tool s. DMIF MPEG-4 File Format MPEG-J Transportschicht-Unabhängigkeit s. DMIF Intellectual Property-Verwaltung Einführung Visual Audio DMIF Systems Profiles 44
BIFS (1)
Sprache zur Beschreibung von 3D-Szenen komplett abgeleitet aus VRML (Virtual Reality Modeling Language) Möglichkeit zur Gruppierung von MOs Szenenbeschreibung Position der MOs in Raum und Zeit Änderung der Attribute Einführung Visual Audio DMIF Systems Profiles 45
BIFS (2)
Andere Manipulationen Ereignismodell Userinteraktion vorgefertige Funktionen zur Konstruktion von Szenen Graphics Primitives Advanced BIFS (Version 2) Advanced Sound Environment Modeling Widerhall, ...
und mehr Einführung Visual Audio DMIF Systems Profiles 46
User Interaction
muss explizit vom Autor erlaubt werden client-seitige Interaktion Änderung des Inhalts erfolgt beim Endbenutzer Größenänderung Sichtbarkeit Position, ...
durch Events (Mausklick, Tastatur) server-seitige Interaktion ähnlich, jedoch erfolgen Änderungen beim Sender Rückkanal (back channel) erforderlich Einführung Visual Audio DMIF Systems Profiles 47
Intellectual Property (1)
Management und Schutz von geistigem Eigentum (intellectual property) schnelle Entwicklung dieses Gebietes stellt nur System zur Verfügung, keine konkrete Implementierung in einem MO kann eine Intellectual Property Identification (IPI) gespeichert werden Inhalt Art des Inhalts Rechteinhaber Einführung Visual Audio DMIF Systems Profiles 48
Intellectual Property (2)
Version 2: Schnittstelle für Intellectual Property Management and Protection (IPMP) System kann die Daten aus IPIs benutzen Funktionen, die vom IPMP System unterstützt werden: kontrollierter Zugang zu geistigem Eigentum; Kontrolle erfolgt vom Provider Verifikation der Authentizität des Senders Verifikation Integrität des IPs Schutz vor Raubkopien Einführung Visual Audio DMIF Systems Profiles 49
Intellectual Property Schema
Stream flow controller Szenen graph MPEG-4 Stream Demux MO Decode Composition Rendering Objekt deskriptoren IPMPS Einführung Visual Audio DMIF Systems Profiles 50
MPEG-J
Erlaubt, MPEG4-Decoder über Javacode zu bedienen stellt APIs zur Verfügung Kontrollmechanismen für MPEG-4 Medien in Java möglich Java-Applikation wird als eigener Elementary Stream übertragen Übergeben an MPEG-J runtime environment Applikation kann auf Komponenten und Daten des MPEG-4-Players zugreifen Einführung Visual Audio DMIF Systems Profiles 51
MPEG-J APIs
Scene Graph API Hinzufügen/Entfernen von MOs, ...
Resource Manager API Regelt Performance Network API Erlaubt Interaktion mit DMIF Media Decoders API Kontrolliert die Decoder, die am aktuellen Rechner verfügbar sind Einführung Visual Audio DMIF Systems Profiles 52
MPEG-J Schema
MPEG-J Ein-/Ausgabe NW API DMIF MD API SG API RM API D e m u x Einführung Visual BIFS Decoder Media Decoder Audio Szenengraph DMIF Systems Composition Rendering Profiles 53
MP4 File Format
basiert auf dem QuickTime Format (Apple) besteht aus objekt-ähnlichen Einheiten: Atoms alle Atoms, die Informationen zu einem movie enthalten, bilden ein Movie Atom Eigentliche Mediendaten in der MP4-Datei selbst (Media Data Atoms) außerhalb (Zugriff via URL) Einführung Visual Audio DMIF Systems Profiles 54
MP4 File Aufbau
MP4-Datei movie atom initial object descriptor BIFS OD video audio BIFS units Media Data Atom MP4-Datei Media Data Atom Einführung Visual Audio DMIF Systems Profiles 55
Gliederung
Einführung Visual Audio DMIF Systems Profiles 56
Profiles
Profiles limitieren Tools, die der Decoder implementieren kann optimale Qualität für spezielle Anwendungen Beispiel MPEG-2: Main Profile@Main Level ein Profile besteht aus 1 oder mehr Levels Profiles existieren für Audio Visual Scene Description MPEG-J Object Descriptors Einführung Visual Audio DMIF Systems Profiles 57
Visual/Audio Profiles
Visual insgesamt 15 Profiles Simple Effizient, schnell, für rechteckige Videoobjekte Main Beliebig geformte, skalierbare Objekte Ziel: Entertainment, DVD-Anwendungen Audio Insgesamt 8 Profiles Speech Profile Main Profile Einführung Visual Audio DMIF Systems Profiles 58
MPEG-4 >Version 2
nur noch Änderungen bei Visuals/Systems Visual Tools für MPEG-4 in professionellen Studios Digital Cinema: Codieren ohne Verlust Systems BIFS Extensible MPEG-4 Textual Format Szene durch Text beschreiben 2D und 3D Animation Einführung Visual Audio DMIF Systems Profiles 59
Ende
Danke
60