MPEG-2是MPEG工作群組於1994年釋出的視訊和音訊壓縮國際標準。MPEG-2通常用來為廣播訊號提供視訊和音訊編碼,包括衛星電視、有線電視等。MPEG-2經過少量修改後,也成為DVD產品的核心技術。
MPEG-2的系統描述部分(第1部分)定義了傳輸流,它用來一套在非可靠介質上傳輸數位視訊訊號和音訊訊號的機制,主要用在廣播電視領域。
MPEG-2的第二部分即視訊部分和MPEG-1類似,但是它提供對隔行掃描視訊顯示模式的支援(隔行掃描廣泛應用在廣播電視領域)。MPEG-2視訊並沒有對低位元速率(小於1Mbps)進行最佳化,在3Mbit/s及以上位元速率情況下,MPEG-2明顯優於MPEG-1。MPEG-2回溯相容,也即是說,所有符合標準的MPEG-2解碼器也能夠正常播放MPEG-1視訊流。
MPEG-2技術也應用在了HDTV傳輸系統和藍光光碟中。
MPEG-2的第三部分定義了音訊壓縮標準。該部分改進了MPEG-1的音訊壓縮,支援兩通道以上的音訊。MPEG-2音訊壓縮部分也保持了回溯相容的特點。
MPEG-2的第七部分定義了不能回溯相容的音訊壓縮。該部分提供了更強的音訊功能。通常我們所說的MPEG-2AAC指的就是這一部分。
一個MPEG-2系統流一般包括兩個基本元素:
MPEG-2影像壓縮的原理是利用了影像中的兩種特性:空間相關性和時間相關性。這兩種相關性使得影像中存在大量的冗餘資訊。如果我們能將這些冗餘資訊去除,只保留少量非相關資訊進行傳輸,就可以大大節省傳輸頻帶。而接收機利用這些非相關資訊,按照一定的解碼演算法,可以在保證一定的影像質量的前提下恢復原始影像。
MPEG-2視訊通常包含多個GOP(Group Of Pictures),每一個GOP包含多個影格(frame)。影格的影格類(frame type)通常包括I-影格(I-frame)、P-影格(P-frame)和B-影格(B-frame)。其中I-影格採用影格內編碼,P-影格採用前向估計,B-影格採用雙向估計。
I 影格影像採用影格內編碼方式,即只利用了單影格影像內的空間相關性,而沒有利用時間相關性。I 影格使用影格內壓縮,不使用運動補償,由於I 影格不依賴其它影格,所以是隨機存取的入點,同時是解碼的基準影格。I 影格主要用於接收機的初始化和信道的獲取,以及節目的切換和插入,I 影格影像的壓縮倍數相對較低。I 影格影像是周期性出現在影像序列中的,出現頻率可由編碼器選擇。
P 影格和B 影格影像採用影格間編碼方式,即同時利用了空間和時間上的相關性。P 影格影像只採用前向時間預測,可以提高壓縮效率和影像質量。P 影格影像中可以包含影格內編碼的部分,即P 影格中的每一個宏塊可以是前向預測,也可以是影格內編碼。
B 影格影像採用雙向時間預測,可以大大提高壓縮倍數。值得注意的是,由於B 影格影像採用了未來影格作為參考,因此MPEG-2編碼碼流中影像影格的傳輸順序和顯示順序是不同的。
MPEG-2的編碼碼流分為六個層次。為更好地表示編碼資料,MPEG-2用句法規定了一個層次性結構。它分為六層,從上至下依次為:視訊序列層(Sequence),影像組層(GOP: Group of Picture),影像層(Picture),像條層(Slice),宏塊層(Macro Block)和像塊層(Block)。可以看到,除宏塊層和像塊層外,上面四層中都有相應的起始碼(Start Code,SC),可用於因誤碼或其它原因收發兩端失步時,解碼器重新捕捉同步。因此一次失步將至少遺失一個像條的資料。
一般來說輸入視訊格式是25(CCIR標準)或者29.97(FCC)影格/秒。
MPEG-2支援隔行掃描和逐行掃描。在逐行掃描模式下,編碼的基本單元是影格。在隔行掃描模式下,基本編碼可以是影格,也可以是場(field)。
原始輸入影像首先被轉換到YCbCr顏色空間。其中Y是亮度,Cb和Cr是兩個色度通道。對於每一通道,首先採用塊分割,然後形成「宏塊」(macroblocks),宏塊構成了編碼的基本單元。每一個宏塊再分割成8x8的小塊。色度通道分割成小塊的數目取決於初始參數設定。例如,在常用的4:2:0格式下,每個色度宏塊只採樣出一個小塊,所以三個通道宏塊能夠分割成的小塊數目是4+1+1=6個。
對於I-影格,整幅影像直接進入編碼過程。對於P-影格和B-影格,首先做運動補償。通常來說,由於相鄰影格之間的相關性很強,宏塊可以在前影格和後影格中對應相近的位置找到相似的區域匹配的比較好,這個偏移量作為運動向量被記錄下來,運動估計重構的區域的誤差被送到編碼器中編碼。
對於每一個8×8小塊,離散餘弦變換把影像從空間域轉換到頻域。得到的變換係數被量化並重新組織排列順序,從而增加長零的可能性。之後做遊程編碼(run-length code)。最後作哈夫曼編碼(Huffman Encoding)。
I影格編碼是為了減少空間域冗餘,P影格和B影格是為了減少時間域冗餘。
GOP是由固定模式的一系列I影格、P影格、B影格組成。常用的結構由15個影格組成,具有以下形式IBBPBBPBBPBBPBB。GOP中各個影格的比例的選取和頻寬、影像的質量要求有一定關聯。例如因為B影格的壓縮時間可能是I影格的三倍,所以對於計算能力不強的某些即時系統,可能需要減少B影格的比例。
MPEG-2輸出的位元流可以是勻速或者變速的。最大位元率,例如在DVD應用上,可達10.4 Mbit/s。如果要使用固定位元率,量化尺度就需要不斷的調節以產生勻速的位元流。但是,提高量化尺度可能帶來可視的失真效果。比如馬賽克現象。
MPEG-2的音訊編碼包括:
DVD中採用了MPEG-2標準並引入如下技術參數限制:
MPEG-2在NTSC中必須符合以下一種解析度:
蘊藏許多助人的知識與智慧。
關注藍眼知識學院