slanted W3C logo

Promotionsvortrag Sven Klomp

Im folgenden finden Sie die Vortragsfolien zu meiner Promotionsverteidigung. Die Dissertation wurde beim VDI Verlag unter der ISBN 978-3-18-382010-8 veröffentlicht. Sie kann außerdem bei der Universitätsbibliothek zum eigenen Gebrauch kostenfrei heruntergeladen, gelesen, gespeichert und ausgedruckt, aber nicht im Internet bereitgestellt oder an Außenstehende weitergegeben werden: PDF

Zur besten Ansicht der Präsentation eignet sich Firefox ab Version 5. Das enthaltene Javascript ist auf diesen Browser optimiert, andere Browser wurden nicht getestet. Der Inhalt passt sich der Fenstergröße an, ist jedoch für eine Bildschirmauflösung von 1024x768 Bildpunkten und Firefox im Vollbildmodus optimiert.
Die (störende) Menüleiste im unteren Rand lässt sich mit der Taste f ausblenden.

Die gesamte Präsentation wurde mit Open-Source-Software erstellt. Hervorheben möchte ich folgende Projekte:
Bei Fragen bin ich immer gerne unter mail@klomp.eu zu erreichen.

Decoderseitige
Bewegungsschätzung
in der Videocodierung

Sven Klomp

15. Dezember 2011

Videosequenz

Eine Videosequenz ist einfach eine Hintereinanderreihung von Bildern wie bei einem Daumenkino.

Übertragung

Ein Video kann auf unterschiedliche Weise übertragen werden: * Per Funk/ Satelit wie von gewöhnlichen Rundfunk bekannt * Übers Internet als z.B Streaminginhalt * Oder auf Physikalischen Medien wie DVD und Bluray

Prädiktive Codierung

Das erste Bild wird ohne Informationen von anderen Bildern codiert. ...

Aufteilung der Datenrate

Blabla

Übersicht

Stand der Technik

Übersicht

  • Stand der Technik
  • Bewegungsschätzung am Decoder
  • Modellierung der decoderseitigen Bewegungsschätzung
  • Experimentelle Ergebnisse
  • Zusammenfassung

Hybride Videocodierung

Encoder

Blockgrößen Zeilenweise Sub-pel Prädiktionsfehler Transformation -> Quantisierung -> Residuum

Hybride Videocodierung

Decoder

Hybride Videocodierung

Decoder im Encoder

Schätzung der Vektoren

Motion Vector Prediction

Schätzung der Vektoren

Motion Vector Competition

Schätzung der Vektoren

Decoder-side Motion Vector Derivation

Vergleich der Methoden

Annahme von Homogenität über
Ort Zeit
Bewegungsvektoren Motion Vector Prediction Motion Vector Competition
Bildinhalt Decoder-side Motion Vector Derivation Decoder-side Motion Estimation
Nachteile aufzählen: * MVP, MVC nciht sehr genau * DMVD nur blockweise * Blockgröße fest * Dichte Bewegungsvektorfeld interessant
DSME

Übersicht

  • Stand der Technik
  • Bewegungsschätzung am Decoder
  • Modellierung der decoderseitigen Bewegungsschätzung
  • Experimentelle Ergebnisse
  • Zusammenfassung

Probleme

Falsche Korrespondenz

Probleme

Beschleunigte Bewegung

DSME-Architektur

Decoder

Merkmale der Architektur

  • Signalisierung über Referenzbildindex
  • Kein neuer Codiermodus nötig
    • Konventionelle Codiertools können DSME-Prädiktion nutzen
  • Kompensation beschleunigter Bewegung
  • Gekapselte Architektur
    • Einfache Erweiterung existierender Systeme
    • Flexibler Austausch der Bewegungsschätzung

Hierarchische Schätzung

Hierarchische Schätzung

Hierarchische Schätzung

Hierarchische Schätzung

Modellierung

Übersicht

  • Stand der Technik
  • Bewegungsschätzung am Decoder
  • Modellierung der decoderseitigen Bewegungsschätzung
  • Experimentelle Ergebnisse
  • Zusammenfassung

Modellierte Datenrate

Konventionelle Codierung1

$ \begin{eqnarray} R^{\mathrm{(KONV)}} & \approx & \frac{1}{B^2} \log_2 \frac{4 e^2 \sigma_{V}^2 \ln\left(\frac{1}{\tilde{c}_a}\right) B}{\Delta^2} + \left\{ \begin{array}{ll} \log_2 \frac{\sqrt{2}e \sigma_e}{Q} & \mbox{(fein)} \\ \frac{e}{Q^2 \ln 2} \left( \sigma_e^2 \right) & \mbox{(grob)} \\ \end{array} \right. \end{eqnarray} $
1 Jordi Ribas-Corbera und David L. Neuhoff: On the optimal block size for block-based, motion-compensated video coders. In Proceedings of the SPIE Conference on Visual Communications and Image Processing, S. 1132-1143, San José, CA, USA, Januar 1997.

Prädiktionsfehlervarianz

$\sigma_e^2 = $ $\Delta^2 G$ begrenzte Genauigkeit der Bewegungsvektoren
+ $6 \sigma_V^2 \ln\left(\frac{1}{c_a}\right) G B$ unterschiedliche Bewegung innerhalb eines Blockes
+ $\frac{Q^2}{12}$ Verzerrung des Referenzbildes durch Quantisierung
+ $\mu$ Verdeckung, Kamerarauschen, Beleuchtungsänderung

Modellierte Datenrate

DSME-Codierung

  • Beschleunigte Bewegung erzeugt Versatz
  • Kompensation des Versatzes durch zusätzlichen Vektor
  • $$ R^{\mathrm{(DSME)}} = R_V + R_R $$

Beschleunigung

$$\begin{eqnarray} d & = & \hat{p}(T_t) - p(T_t) \\ & = & \frac{1}{2} a T_t^2 \end{eqnarray} $$
$$\begin{eqnarray} a & \sim & \mathcal{N}(0,\sigma_{a}^2) \end{eqnarray} $$

Entropie des Versatzes

Varianz des Versatzes: $$ \sigma_d^2 = E \left[ d^2(j) \right] = E \left[ \frac{1}{4} a^2 T_t^4 \right] = \frac{1}{4} T_t^4 \sigma_{a}^2 $$
Differentielle Entropie: $$ h(d) = \frac{1}{2} \log_2\left( \frac{1}{2} \pi e T_t^4 \sigma_{a}^2 \right) $$
Entropie: $$ H(\vec{d'}) = 2 \left( h(d) - \log_2 \Delta \right) = \log_2 \frac{\frac{1}{2} \pi e T_t^4 \sigma_{a}^2}{\Delta^2} $$

Bewegungsmodell

Versatzwahrscheinlichkeit

Bitrate des Versatzes

$$ \begin{eqnarray} R_V & = & \frac{1}{N} \left( P_B \frac{N}{B^2} \log_2 \frac{\frac{1}{2} \pi e T_t^4 \sigma_{a}^2}{\Delta^2} \right) \\ & = & \frac{ P_{B_0}}{B_0} \frac{1}{B} \log_2 \frac{\frac{1}{2} \pi e T_t^4 \sigma_{a}^2}{\Delta^2} \end{eqnarray} $$

Bitrate des Residuums

  • Rate kleiner als bei konventioneller Codierung
    • Insbesondere bei großen Blöcken
  • Modellierung der Korrelationen zwischen Referenzbildern sehr aufwändig $$ \begin{eqnarray} R_R & = & \left\{ \begin{array}{ll} \log_2 \frac{\sqrt{2}e \sigma_e}{Q} & \mbox{(fein)} \\ \frac{e}{Q^2 \ln 2} \left( \sigma_e^2 \right) & \mbox{(grob)} \\ \end{array} \right. \end{eqnarray} $$

Modellierte Datenrate

DSME-Codierung

$$ \begin{eqnarray} R^{\mathrm{(DSME)}} & \approx & \frac{P_{B_0}}{B_0} \frac{1}{B} \log_2 \frac{\frac{1}{2} \pi e T_t^4 \sigma_{a}^2}{\Delta^2} + \left\{ \begin{array}{ll} \log_2 \frac{\sqrt{2}e \sigma_e}{Q} & \mbox{(fein)} \\ \frac{e}{Q^2 \ln 2} \left( \sigma_e^2 \right) & \mbox{(grob)} \\ \end{array} \right. \end{eqnarray} $$

Parameter

  • 6 sequenzabhängige Parameter
  • Erweiterung um lediglich 2 zusätzliche Parameter
    • $\sigma_a^2$: Varianz der Beschleunigung
    • $\frac{P_{B_0}}{B_0}$:
      Auftretenswahrscheinlichkeit von
      unterschiedlichen Objekten

Verifikation

Datenrate der Bewegungsvektoren

Verifikation

Datenrate der Residuuminformation

Verifikation

Gesamtdatenrate

Ergebnisse

Übersicht

  • Stand der Technik
  • Bewegungsschätzung am Decoder
  • Modellierung der decoderseitigen Bewegungsschätzung
  • Experimentelle Ergebnisse
  • Zusammenfassung

Codecs

  • MPEG-4 Part 10 / H.264 (AVC)
  • High Efficiency Video Coding (HEVC)
Offizielle Testbedingungen:
  • Alle HD-Sequenzen
  • Hierarchische B-Bilder
  • Ein I-Bild pro Sekunde
  • Größe Referenzbildspeicher: 2 Bilder
  • Quantisierungsparameter: 22, 27, 32, 37

Subjektiver Vergleich

HEVC-codiert bei 8,77 Mbit/s
DSME-codiert bei 8,18 Mbit/s

Bitratenreduktion

Sequenz B-Bilder Gesamt
BasketballDrive -5,19 % -2,72 %
BQTerrace -7,25 % -1,26 %
Cactus -11,56 % -4,52 %
Kimono -8,13 % -3,81 %
ParkScene -11,56 % -3,26 %
PeopleOnStreet -11,30 % -6,64 %
Traffic -25,95 % -5,98 %
NebutaFestival -2,00 % -0,29 %
SteamLocomotiveTrain -1,85 % -0,76 %
Mittelwert -9,42 % -3.25 %
Mittelwert (AVC) -10,99 % -5,44 %

DSME-Nutzung

PeopleOnStreet

Intra
DSME
Andere

DSME-Nutzung

BasketballDrive

Intra
DSME
Andere

DSME-Nutzung

Sequenz DSME
BasketballDrive 23,3 %
BQTerrace 17,0 %
Cactus 39,5 %
Kimono 48,7 %
ParkScene 51,9 %
PeopleOnStreet 58,7 %
Traffic 51,7 %
NebutaFestival 11,1 %
SteamLocomotiveTrain 17,4 %
Zusammenfassung

Übersicht

  • Stand der Technik
  • Bewegungsschätzung am Decoder
  • Modellierung der decoderseitigen Bewegungsschätzung
  • Experimentelle Ergebnisse
  • Zusammenfassung

Zusammenfassung

  • Hohe Datenraten für Bewegungsvektoren
  • Flexible Architektur auf diverse Codecs anwendbar
  • Hierarchischer Bewegungsschätzer mit dynamischen Suchbereich
  • Modellierung durch lediglich zwei zusätzliche Parameter
  • 5,4% bzw. 3,3% Datenreduktion gegenüber AVC und HEVC
Anhang

Einfluss der Blockgröße

Blabla

DSME Architektur

Encoder

Referenzbildliste

  • Länge der Referenzbildliste erhöht sich
  • Unary Binarization zur Codierung des Index
  • Index Codewort
    0 0
    1 1 0
    2 1 1 0
    3 1 1 1 0
    ... ...
    • Position des DSME-Bildes beeinflusst Codiereffizienz

Referenzbildindex

Kombination mit DMVD

Decoder

Kombination mit DMVD

Encoder

Interpolationsmethoden

Deformierbares Gitternetz

Versuchsaufbau

Decoder

Versuchsaufbau

Encoder

Sequenzabhängige Parameter

Parameter Wert Bedeutung
$G$ 19,17 Stärke der Texturierung
$\sigma_V$ 3,614 Standardabweichung des Bewegungsvektorfeldes
$c_A$ 0.998 Korrelationskoeffizient des AR-Prozesses zur Modelierung des wahren Vektorfeldes
$\tilde{c}_A$ 0.932 Korrelationskoeffizient des AR-Prozesses zur Modelierung des geschätzten Vektorfeldes
$\sigma_a$ 2758 Standardabweichung der Beschleunigung
$\frac{P_{B_0}}{B_0}$ 0,056 Normierte Auftretenswahrscheinlichkeit von unterschiedlichen Objekten bei einer Blockgröße $B_0=16$
$\mu$ 13,45 Durch Verdeckung, Kamerarauschen und Beleuchtungsänderung verursachte Prädiktionsfehlervarianz
$T_t$ 0,033 Abtastzeit ($T_t=\frac{1}{f_t}$)

Referenzinterpolation

STAR-Interpolation

Interpolation

Auflösung Sequenz STAR hier. Int.
QCIF Foreman 39,67 dB 37,60 dB
Mobile 36,19 dB 36,76 dB
CIF Bus 27,27 dB 29,54 dB
City 34,83 dB 35,46 dB
Flower 33,45 dB 32,59 dB
Mobile 29,49 dB 31,87 dB
Tempete 30,86 dB 30,96 dB
4CIF City 30,13 dB 28,91 dB
Flower 28,70 dB 33,56 dB
Mobile 26,75 dB 31,96 dB
720p City 31,66 dB 31,57 dB
Sheriff 38,08 dB 37,96 dB
Spincalendar 29,51 dB 35,20 dB
Mittelwert 32,05 dB 33,38 dB

Einzelgewinne

Auflösung Sequenz 4$\times$4 kein Latching
QCIF Foreman -0,26 dB -1,30 dB
Mobile -0,15 dB -5,23 dB
CIF Bus 0,01 dB -2,40 dB
City -0,19 dB -1,05 dB
Flower -0,55 dB -1,52 dB
Mobile -0,17 dB -3,38 dB
Tempete -0,03 dB -0,83 dB
4CIF City -0,15 dB -0,53 dB
Flower -0,15 dB -1,43 dB
Mobile -0,01 dB -1,68 dB
720p City 0,12 dB -0,64 dB
Sheriff -0,03 dB -1,53 dB
Spincalendar 0,12 dB -4,80 dB
Mittelwert -0,11 dB -2,02 dB

Testsequenzen

Codierparameter

Random Access, High Efficiency Profil

  • Hierarchische B-Bilder
  • I-Bild jede Sekunde
  • Größe Referenzbildspeicher: 2 Bilder
  • Quantisierungsparameter: 22, 27, 32, 37

Subjektiver Vergleich RP1

HEVC-codiert bei 4,82$\frac{Mbit}{s}$
DSME-codiert bei 4,49$\frac{Mbit}{s}$

Subjektiver Vergleich RP2

HEVC-codiert bei 8,77$\frac{Mbit}{s}$
DSME-codiert bei 8,18$\frac{Mbit}{s}$

Subjektiver Vergleich RP3

HEVC-codiert bei 16,78$\frac{Mbit}{s}$
DSME-codiert bei 15,90$\frac{Mbit}{s}$

Subjektiver Vergleich RP4

HEVC-codiert bei 34,69$\frac{Mbit}{s}$
DSME-codiert bei 33,63$\frac{Mbit}{s}$

Rate-Distortion-Kurve

PeopleOnStreet