Transcript MPEG-4

MPEG-4

Ein Überblick

Vortrag in der Projektgruppe „Verteilte Multimedia-Serversysteme“ WS 00/01

Gliederung

Einführung Visual Audio DMIF Systems Profiles 2

Wiederholung

 Technik von MPEG-2:  Intraframe-Codierung  DCT, RLE  Interframe-Codierung  Motion Compensation  I-, P-, B-Frames  hierarchische Codierung  Base Layer  Enhancement Layer Einführung Visual Audio DMIF Systems Profiles 3

Überblick (1)

 offizielle Bezeichnung: ISO/IEC 14496  Lizenzierung kostenpflichtig  Tools auf CD-ROM für $40 erhältlich  fertiggestellt im Oktober 1998  Anfang 1999: internationaler Standard  Ende 1999: MPEG-4 Version 2  nur Erweiterungen, keine Veränderungen  neue Erweiterungen in Arbeit Einführung Visual Audio DMIF Systems Profiles 4

Überblick (2)

 MPEG2  Kompression von Videodaten  MPEG4  erweiterte Funktionalität  Kompression  Flexibilität  keine Festlegung auf bestimmtes Verfahren  oft nur Interfaces standardisiert  stattdessen: Sammlung verschiedener Tools Einführung Visual Audio DMIF Systems Profiles 5

Anwendungen

 Videos  Fußball im Pay-TV  nicht bezahlt: kein Ball  bezahlt: Ball erscheint  Mobilfunk  Internettelefonie  Interaktive Videospiele  Videokonferenzen Einführung Visual Audio DMIF Systems Profiles 6

Zielgruppen

 Autoren  Wiederverwendbarkeit  Flexibilität  Rechteverwaltung  Netzwerkbetreuer  Framework - „Unterbau“ muss vom Netzwerkbetreiber bereitgestellt werden  Endbenutzer  hohes Maß an Interaktivität  Qualität auch bei niedrigen Bitraten  Fehlerrobustheit  mobil Einführung Visual Audio DMIF Systems Profiles 7

Grundidee

 Szene wird in „Einheiten“ unterteilt  Media Objects  Zusammensetzung der Media Objects wird gespeichert  Szenengraph Einführung Visual Audio DMIF Systems Profiles 8

Media Objects

 Video Objects  Natural  Kamera  Synthetic  computergeneriert  Audio Objects  Natural  Mikrofon  Synthetic  computergeneriert Einführung Visual Audio DMIF Systems Profiles 9

Szenengraph (1)

 Szenengraph sorgt für korrekte Positionierung der Media Objects  räumlich  zeitlich  Realisiert durch gerichteten, azyklischen Graphen scene voice Person 2D Background picture Video Einführung Visual Audio DMIF Systems Profiles 10

Szenengraph (2)

 jedes Media Object besitzt ein eigenes Koordinatensystem  Szenengraph verfügt selbst auch über ein Koordinatensystem  durch Berechnung: „virtuelle Kamera“ möglich  Blickwinkel  Ausschnitt Einführung Visual Audio DMIF Systems Profiles 11

Hierarchie

 Media Objects einer Szene sind hierarchisch sortiert  Blätter: Primitive Media Objects  Still Images - unbewegte Bilder (z. B. Hintergrund)  Video Objects (z. B. Person)  Audio Objects (z. B. Stimme) „komplette“ Person Bild einer Person Einführung Visual Audio Stimme einer Person DMIF Systems Profiles 12

Streams

 MPEG-Standards basieren auf Datenströmen (Streams)  in MPEG-2 drei Arten von Streams  Packetized Elementary Stream  Audio- oder Videostrom (in Pakete aufgeteilt)  Program Stream  „Programme“ codiert als PES   Anwendungen ohne Fehler (DVD, ...)  Transport Stream für unsichere Übertragungskanäle Einführung Visual Audio DMIF Systems Profiles 13

Übertragung

 Sender  Objekte komprimieren  1 Primitive Media Object  1 Stream  Zusammenfassen zu einem Stream (Multiplex)  Empfänger  Stream trennen (Demultiplex)   in Elementary Streams zerlegen Objekte einlesen (Decode)  Szenengraph einlesen  1 Elementary Stream (Decode)  Zusammensetzen (Composition) und Aufbauen (Rendering) der Szene Einführung Visual Audio DMIF Systems Profiles 14

Schichtenmodell

Aufbauen der Szene Decompression Layer Synchronisation Layer Delivery Layer Netzwerk / CD / Kabel Dekodieren der Datenströme Zeitstempel Fehlerkorrektur Datenempfang Demultiplex 15

Aufbauen einer Szene

Media Objects .

.

.

Scene Graph Composition Rendering Einführung Visual Audio DMIF Systems Profiles 16

Gliederung

Einführung Visual Audio DMIF Systems Profiles 17

Visual

 Kodierung von visuellen Objekten in natürlichen und synthetischen, bewegten Bildern  Verknüpfung mit Ton möglich  Ziel:  breites Anwendungsfeld  effiziente Komprimierung erreichen Einführung Visual Audio DMIF Systems Profiles 18

Videoformate

 Bitraten  min. 5kbit/s  max. 10 Mbit/s  Formate  progressive  interlaced  Auflösungen  min. sub-QCIF (172 x 144 Pixel)  max. > HDTV (1440 x 1152 Pixel) Einführung Visual Audio DMIF Systems Profiles 19

„Content-based“ Funktionalität

 Video Objects einzeln kodiert  Random Access auf einzelnen Objekten  play, pause, forward, ...

 Manipulation einzelner Video Objects  Bsp.: Text auf sich bewegendes Video Object legen Einführung Visual Audio DMIF Systems Profiles 20

Skalierbarkeit (1)

 Complexity Scalability (Encoder)  Streams verschiedener Komplexität erzeugen  Complexity Scalability (Decoder)  festen Stream in verschiedenen Komplexitätsstufen abspielen  schwache Decoder decodieren nur Teil des Streams Einführung Visual Audio DMIF Systems Profiles 21

Skalierbarkeit (2)

 Spatial Scalability (Decoder)  Auflösung einzelner Video Objects skalierbar  Temporal Scalability (Decoder)  nicht alle Frames werden wiedergegeben  Quality Scalability (Encoder)  Benutzung verschiedener Layer (s. MPEG-2) Einführung Visual Audio DMIF Systems Profiles 22

Natural Video Objects

 natürliches Video Object besteht aus folgenden Informationen:  Form (shape)  Texturen (texture)  Bewegungsinformationen (motion)  zusätzliche Kompressionsmöglichkeit:  Sprite Coding Einführung Visual Audio DMIF Systems Profiles 23

Shape Coding

 Binary Shape Coding  Matrix (Binary Alpha Map)  definiert, ob Pixel zu Objekt gehört  0 - liegt nicht drin  255 - liegt drin  Alpha Shape Coding  definiert Transparenz  Wert zwischen 0 (transparent) und 255 (undurchsichtig) Einführung Visual Audio DMIF 0 0 0 0 255 0 0 0 255 255 255 0 0 0 0 255 255 255 255 255 0 255 255 255 255 255 255 255 Systems Profiles 24

Texture Coding

 gleiche Kodierung wie bei MPEG-2  Diskrete Kosinustransformation (DCT)  Quantisierung  Mapping auf 2D-/3D-Oberflächen möglich  spezielle Transformation (Wavelet) Einführung Visual Audio DMIF Systems Profiles 25

Motion Coding

 Motion Compensation  Ähnlichkeiten in Bildfolgen ausnutzen P-VOP B-VOP I-VOP Zeit Einführung Visual Audio DMIF Systems Profiles 26

Sprite Coding

 Hintergrund (Sprite) wird nur einmal übertragen  auf Decoder-Seite in Buffer gespeichert   nur noch Kamerapositionen werden geändert gute Kompressionsrate Einführung Visual Audio DMIF Systems Profiles 27

Synthetic Video Objects

 Facial Animation - Animation von Gesichtern  Body Animation  2D Meshes  3D Meshes  View-dependent Scalability Einführung Visual Audio DMIF Systems Profiles 28

Facial Animation

 Form, Textur und Gesichtsausdruck werden nur durch Parameter übergeben  Facial Definition Parameters (FDP)  Gesicht wird durch 84 FDPs beschrieben  FDPs werden vom Decoder in Gesicht umgesetzt  Animation:  Facial Animation Parameters  Gesichtsausdrücke  Body Animation analog Einführung Visual Audio DMIF Systems Profiles 29

2D Meshes

 Aufteilung des 2-dimensionalen Raumes in Polygone  in MPEG-4 nur Dreiecke  Textur wird über das Gittermodell gelegt  Texture Mapping  Animation  Verschieben der Knotenpunkte Einführung Visual Audio DMIF Systems Profiles 30

View-dependent Scalability

 wird in 3D-Welten benutzt  ermöglicht Übertragung von Texturen  nur sichtbare Informationen werden übertragen  spart Bandbreite  Berechnung auf Encoder- und Decoder Seite  Rückkanal erforderlich Einführung Visual Audio DMIF Systems Profiles 31

Gliederung

Einführung Visual Audio DMIF Systems Profiles 32

Audio

 Tools für  Repräsentation (Sprache, Musik)  Kompression  Skalierbarkeit  Effekte  künstliche Herstellung  Daten in Textform übergeben  Effekte (Widerhall, ...)  meistens nur Interface  konkrete Implementierung flexibel Einführung Visual Audio DMIF Systems 33

Natural Audio Objects

 Sprache  spezielle Standards für Sprachoptimierung   geringer Frequenzbereich geringe Bitrate  Musik  TwinVQ  besser als MP3  MPEG-2 Advanced Audio Coding (AAC) Einführung Visual Audio DMIF Systems Profiles 34

Synthesized Speech

 Text To Speech (TTS)-Interface  Decoder wandelt Text in gesprochene Sprache um  extrem niedrige Bitraten  Unterstützung für  phonetische Parameter  Synchronisation mit Lippenbewegungen  pause, resume, jump forward/backward  Dialekte, Sprachunterstützung Einführung Visual Audio DMIF Systems Profiles 35

Synthesized Audio

 MIDI (Musical Instrument Digital Interface)  Synthesizer auf Decoder-Seite  nur Noten und Information über Instrument werden übertragen  spart Bandbreite  Erweiterung: SAOL (Structured Audio Orchestra Language)  Funktionalität von MIDI  Definition des Instrumentes kann im Stream mitgeschickt werden  Decoder setzt Instrumente und Noten zusammen Einführung Visual Audio DMIF Systems Profiles 36

Gliederung

Einführung Visual Audio DMIF Systems Profiles 37

Streaming

 MPEG-4 Standard stellt flexibles Handling für Streams zur Verfügung  kann auf beliebige Protokolle aufsetzen  Verschiedenste Nutzungsarten möglich  Internet  Broadcast  DVD, CD etc.

Einführung Visual Audio DMIF Systems Profiles 38

DMIF

 Delivery Multimedia Integration Framework  Sitzungsprotokoll  Framework  ähnlich FTP  Unterschied: statt Daten werden Pointer übertragen, wo zu streamende Daten zu finden sind  stellt Interface für Applikationen zur Verfügung  DMIF Application Interface (DAI) Einführung Visual Audio DMIF Systems Profiles 39

Aufbau des DMIF

ESI ...

SL SL ...

synchronisation layer DAI FlexMux DMIF layer DNI RTP UDP/IP MPEG-2 TS Datei TransMux layer delivery layer Einführung Visual Audio DMIF Systems Profiles 40

1.

DMIF Ablauf

App. (local)    DMIF (local) spricht DAI an Aufbau Sitzung zwischen DMIF und Applikation 2.

DMIF (local)    DMIF (remote) Kommunikation über DNI baut Netzwerksitzung auf Local DMIF Application 1 DMIF 3.

DMIF (remote)   App. (remote) Aufbau Sitzung zwischen DMIF und App. (lokal) 4 2 4.

App. (remote)   App. (local) Kommunikation über 1, 2 und 3 Remote DMIF Application 3 DMIF Einführung Visual Audio DMIF Systems Profiles 41

Gliederung

Einführung Visual Audio DMIF Systems Profiles 42

Systems

 Sammlung von Tools  beschreiben Verhältnis zwischen den Objekten einer Szene  Verhältnis wird auf 2 Ebenen beschrieben  Binary Format for Scenes (BIFS)  Object Descriptors (ODs)  beschreiben Verhältnis der Streams eines Objektes  zusätzliche Informationen (URL, Intellectual Property, ...) Einführung Visual Audio DMIF Systems Profiles 43

Zusätzliche Themen

 User Interaction  FlexMux Tool  s. DMIF  MPEG-4 File Format  MPEG-J  Transportschicht-Unabhängigkeit  s. DMIF  Intellectual Property-Verwaltung Einführung Visual Audio DMIF Systems Profiles 44

BIFS (1)

 Sprache zur Beschreibung von 3D-Szenen  komplett abgeleitet aus VRML (Virtual Reality Modeling Language)  Möglichkeit zur Gruppierung von MOs  Szenenbeschreibung  Position der MOs in Raum und Zeit  Änderung der Attribute Einführung Visual Audio DMIF Systems Profiles 45

BIFS (2)

 Andere Manipulationen  Ereignismodell  Userinteraktion  vorgefertige Funktionen zur Konstruktion von Szenen  Graphics Primitives  Advanced BIFS (Version 2)  Advanced Sound Environment Modeling  Widerhall, ...

 und mehr Einführung Visual Audio DMIF Systems Profiles 46

User Interaction

 muss explizit vom Autor erlaubt werden  client-seitige Interaktion  Änderung des Inhalts erfolgt beim Endbenutzer  Größenänderung  Sichtbarkeit  Position, ...

 durch Events (Mausklick, Tastatur)  server-seitige Interaktion  ähnlich, jedoch erfolgen Änderungen beim Sender  Rückkanal (back channel) erforderlich Einführung Visual Audio DMIF Systems Profiles 47

Intellectual Property (1)

 Management und Schutz von geistigem Eigentum (intellectual property)  schnelle Entwicklung dieses Gebietes  stellt nur System zur Verfügung, keine konkrete Implementierung  in einem MO kann eine Intellectual Property Identification (IPI) gespeichert werden  Inhalt  Art des Inhalts  Rechteinhaber Einführung Visual Audio DMIF Systems Profiles 48

Intellectual Property (2)

 Version 2: Schnittstelle für Intellectual Property Management and Protection (IPMP) System  kann die Daten aus IPIs benutzen  Funktionen, die vom IPMP System unterstützt werden:  kontrollierter Zugang zu geistigem Eigentum; Kontrolle erfolgt vom Provider  Verifikation der Authentizität des Senders  Verifikation Integrität des IPs  Schutz vor Raubkopien Einführung Visual Audio DMIF Systems Profiles 49

Intellectual Property Schema

Stream flow controller Szenen graph MPEG-4 Stream Demux MO Decode Composition Rendering Objekt deskriptoren IPMPS Einführung Visual Audio DMIF Systems Profiles 50

MPEG-J

 Erlaubt, MPEG4-Decoder über Javacode zu bedienen  stellt APIs zur Verfügung  Kontrollmechanismen für MPEG-4 Medien in Java möglich  Java-Applikation wird als eigener Elementary Stream übertragen  Übergeben an MPEG-J runtime environment  Applikation kann auf Komponenten und Daten des MPEG-4-Players zugreifen Einführung Visual Audio DMIF Systems Profiles 51

MPEG-J APIs

 Scene Graph API  Hinzufügen/Entfernen von MOs, ...

 Resource Manager API  Regelt Performance  Network API  Erlaubt Interaktion mit DMIF  Media Decoders API  Kontrolliert die Decoder, die am aktuellen Rechner verfügbar sind Einführung Visual Audio DMIF Systems Profiles 52

MPEG-J Schema

MPEG-J Ein-/Ausgabe NW API DMIF MD API SG API RM API D e m u x Einführung Visual BIFS Decoder Media Decoder Audio Szenengraph DMIF Systems Composition Rendering Profiles 53

MP4 File Format

 basiert auf dem QuickTime Format (Apple)  besteht aus objekt-ähnlichen Einheiten:  Atoms  alle Atoms, die Informationen zu einem movie enthalten, bilden ein Movie Atom  Eigentliche Mediendaten   in der MP4-Datei selbst (Media Data Atoms) außerhalb (Zugriff via URL) Einführung Visual Audio DMIF Systems Profiles 54

MP4 File Aufbau

MP4-Datei movie atom initial object descriptor BIFS OD video audio BIFS units Media Data Atom MP4-Datei Media Data Atom Einführung Visual Audio DMIF Systems Profiles 55

Gliederung

Einführung Visual Audio DMIF Systems Profiles 56

Profiles

 Profiles limitieren Tools, die der Decoder implementieren kann  optimale Qualität für spezielle Anwendungen  Beispiel MPEG-2: Main Profile@Main Level  ein Profile besteht aus 1 oder mehr Levels  Profiles existieren für  Audio  Visual  Scene Description  MPEG-J  Object Descriptors Einführung Visual Audio DMIF Systems Profiles 57

Visual/Audio Profiles

 Visual  insgesamt 15 Profiles  Simple  Effizient, schnell, für rechteckige Videoobjekte  Main  Beliebig geformte, skalierbare Objekte  Ziel: Entertainment, DVD-Anwendungen  Audio  Insgesamt 8 Profiles  Speech Profile  Main Profile Einführung Visual Audio DMIF Systems Profiles 58

MPEG-4 >Version 2

 nur noch Änderungen bei Visuals/Systems  Visual  Tools für MPEG-4 in professionellen Studios  Digital Cinema: Codieren ohne Verlust  Systems  BIFS Extensible MPEG-4 Textual Format  Szene durch Text beschreiben  2D und 3D Animation Einführung Visual Audio DMIF Systems Profiles 59

Ende

Danke

60