Broadband Watch logo
バックナンバー

その116「DLNAの仕組み」
[2007/03/26]
その115「ドメインとActive Directory」
[2007/03/19]
その114「ワークグループができること」
[2007/03/12]
その113「WPSの仕組み」
[2007/03/05]
その112「Gopherの生い立ちと現在」
[2007/02/26]
その111「Wikiの使われ方」
[2007/02/19]
その110「文字コードとは」
[2007/02/05]
その109「IISの生い立ち」
[2007/01/29]
その108「NASの登場と一般への普及」
[2007/01/22]
その107「HomePNAのいろいろ」
[2007/01/15]
その106「Ogg Vorbisの成り立ち」
[2006/12/25]
その105「MIDIの原理とSMFの構造」
[2006/12/18]
その104「AIFFの構造」
[2006/12/11]
その103「WAVの構造と現状」
[2006/12/04]
その102「WMAの歴史」
[2006/11/27]
その101「AACの特徴」
[2006/11/20]
その100「MP3/MPEG Audioの仕組み」
[2006/11/13]
その99「HSDPAの仕組み」
[2006/11/06]
その98「H.264・MPEG-4 AVCの特徴」
[2006/10/30]
その97「IEEE 802.16e(モバイルWiMAX)の特徴」
[2006/10/23]
その96「TIFFの特徴」
[2006/10/16]
その95「PNGの現状と今後」
[2006/10/02]
その94「GIFの構造」
[2006/09/25]
その93「10GBASEの種類(2)」
[2006/09/11]
その92「10GBASEの種類」
[2006/09/04]
その91「GbEのいろいろ」
[2006/08/28]
その90「JPEGの特徴」
[2006/08/21]
その89「DivXの広がり」
[2006/08/07]
その88「MPEGの仕組み」
[2006/07/31]
その87「WMVのこれまで」
[2006/07/24]
その86「AVIの生い立ちとそのコーデック」
[2006/07/10]
その85「QuickTimeの変遷」
[2006/07/03]
その84「Realのこれまでと今後」
[2006/06/26]
その83「ShareとWinny」
[2006/06/19]
その82「DOCSISの仕組み」
[2006/06/12]
その81「SQLインジェクションの流れ」
[2006/06/05]
その80「RSSの動作」
[2006/05/29]
その79「Skypeの仕組み」
[2006/05/22]
その78「BitTorrentの特徴と今後」
[2006/05/15]
その77「Winnyの仕組みと現状」
[2006/05/08]
その76「WinMXの特徴」
[2006/04/24]
その75「Gnutellaの歴史と構造」
[2006/04/17]
その74「Napsterの歴史」
[2006/04/10]
その73「P2Pのいろいろ」
[2006/04/03]
その72「IEEE 802.11nの動向」
[2006/03/27]
その71「ActiveX Scriptingの動作」
[2006/03/20]
その70「Ajaxの仕組み」
[2006/03/13]
その69「DHTMLの動作」
[2006/03/06]
その68「Scriptの定義」
[2006/02/27]
その67「JavaScriptの仕組み」
[2006/02/20]
その66「Javaの動作」
[2006/02/13]
その65「RFCのプロセス」
[2006/02/06]
その64「ActiveX DocumentとActiveX Controlの違いと共通点」
[2006/01/30]
その63「ActiveX Controlの機能」
[2006/01/23]
その62「ActiveXを構成するもの」
[2006/01/16]
その61「Cookieの仕組みと用途」
[2005/12/26]
その60「malwareとその分類」
[2005/12/19]
その59「rootkitの動作」
[2005/12/12]
その58「CSSの役割」
[2005/12/05]
その57「HTMLの変遷」
[2005/11/28]
その56「PONとその種類」
[2005/11/21]
その55「FWAの仕組み」
[2005/11/14]
その54「DoSとDDoS」
[2005/11/07]
その53「SNMPとMIBの動作」
[2005/10/03]
その52「Jumbo Frameとフレームサイズ」
[2005/09/12]
その51「WPA2の仕組み」
[2005/09/05]
その50「WPAとWPA-PSKの違い」
[2005/08/29]
その49「WPAの仕組み」
[2005/08/22]
その48「WebDAVの動作」
[2005/08/08]
その47「OFDMAの仕組みとOFDMとの違い」
[2005/08/01]
その46「OFDMの仕組み」
[2005/07/25]
その45「WiMAXの特徴」
[2005/07/11]
その44「Wi-Fiの役割」
[2005/07/04]
その43「FTPの目的と動作」
[2005/06/27]
その42「UPnPの動作」
[2005/06/20]
その41「ネットマスクの仕組み」
[2005/06/13]
その40「ARPの機能」
[2005/06/06]
その39「DNSの原理」
[2005/05/30]
その38「デフォルトゲートウェイの役割」
[2005/05/23]
その37「MACアドレスの仕組み」
[2005/05/16]
その36「スイッチとその進化」
[2005/05/09]
その35「ルータによるメリット」
[2005/04/25]
その34「ブリッジの原理」
[2005/04/18]
その33「リピータの機能」
[2005/04/11]
その32「IPアドレスのクラス」
[2005/04/04]
その31「ブロードキャスト/マルチキャスト/ユニキャスト」
[2005/03/28]
その30「SMTP AUTHと認証の種類」
[2005/03/14]
その29「Submissionポートとスパムメール対策」
[2005/03/07]
その28「Outbound Port25 Blockingとは」
[2005/02/28]
その27「PGPの仕組み」
[2005/02/21]
その26「PKIと認証局」
[2005/02/14]
その25「公開鍵暗号方式とは」
[2005/02/07]
その24「共通鍵暗号とは」
[2005/01/31]
その23「SSHの仕組みと応用」
[2005/01/24]
その22「SSLの役割」
[2005/01/17]
その21「POP3とIMAP4の違い」
[2004/12/27]
その20「POP3の役割と機能」
[2004/12/20]
その19「SMTPの機能と問題点」
[2004/12/13]
その18「SPIとパケットフィルタリング」
[2004/12/06]
その17「LANの概念とその広がり」
[2004/11/29]
その16「SIPの役割」
[2004/11/15]
その15「プロキシの利用」
[2004/11/08]
その14「VoIPの仕組み」
[2004/11/01]
その13「イーサネットとは」
[2004/10/25]
その12「IP/TCP/UDP/ICMPとは」
[2004/10/18]
その11「DHCPの役割」
[2004/10/04]
その10「MIMOとは」
[2004/09/27]
その9「DMZとその効果」
[2004/09/13]
その8「ファイアウォールとは」
[2004/09/06]
その7「NATとNAPTの違いとIPマスカレード」
[2004/08/30]
その6「VPNとVPNパススルーの仕組み」
[2004/08/23]
その5「無線LANの問題とWEP」
[2004/08/09]
その4「IEEE 802.11a/b/gって何を意味しているの?」
[2004/08/02]
その3「ダイナミックDNSって?」
[2004/07/26]
その2「グローバルIPアドレスとプライベートIPアドレス」
[2004/07/12]
その1「PPPoEって何だろう?」
[2004/07/05]

その100「MP3/MPEG Audioの仕組み」


MP3って何?

 オーディオプレーヤーなどで広く使われる「MP3」。この正式名称は「MPEG-1 Audio Layer III」で、つまりはMPEG-1用の音声フォーマットになります。MP3のフォーマット自体は、動画フォーマットとしてのMPEGと並行して標準化が進められ、1992年には「ISO/IEC IS 11172-3(MPEG-1 Audio)」として標準化がなされます。

 その後、MP3は好事家の間で“それなりに”流通しますが、これが大きくブレイクするのは1998年に韓国SAEHAN Internationalが発売したポータブルオーディプレーヤー「mpman」の登場以降です。インターネット経由で音楽データをダウンロードして再生できるこのプレーヤーと、1999年に登場したNapsterを組み合わせることで、それまでカセットやCD、MDなどを持ち歩いていたポータブルオーディオプレーヤーのシーンは一変します。

 また、MP3は元データを10分の1以下に減らすことも可能です。例えば、1時間分の音楽CDを40MB前後まで圧縮が可能になり、Napsterなどを使って、ユーザー同士で音楽交換という新しいニーズを確立してしまいました。その後、「RIAA(Recording Industry Association of America:米国レコード産業協会)」からのさまざまな訴訟や、多くのメーカーにより策定された後継フォーマットの登場にも関わらず、MP3は今現在も広く使用される音声フォーマットとして利用され続けています。


MPEG

図1:最小可聴限界
 MP3の動作原理を知るために、まずは「MPEG Audio」自体に関して説明しましょう。MPEG Audioの特徴は聴覚心理、つまり、聴覚の最小可聴限界とマスキング効果を利用することです。

 この最小可聴限界から説明していきます。人間は一般に、20Hz~20KHzの範囲の音を聴き取れるとされます。もちろんこれは平均値で、より広い範囲を聴ける人もいれば、狭い範囲しか聴けない人も居るのですが、今回はこれは置いておきます。

 それでは20Hz~20KHzの範囲であれば、どんな音でも聴き取れるかというと、そうではありません。最小可聴限界のカーブは図1に示すようになっており、2KHz付近はかなり小さな音でも聴き取ることができるのですが、それ以上あるいはそれ以下の周波数になると、相当大きな音でないと聴き取ることができません。

 「ラウドネス曲線」という言葉を耳にされた方もいるかもしれませんが、これは図1で示した曲線のことです。ですから、低音から高音まで広いレンジで鳴っている音源があっても(図2)、人間の耳には両端を落とした形(図3)でしか聴こえないという特徴があります。これを逆手にとって、聴こえない周波数のデータを全部省いてしまうことで、大幅な圧縮が可能になります。


図2:豊かな音色も 図3:こんな風にしか聴こえない

図4:マスキング効果
 マスキング効果はまた別の現象です。例えば、ある周波数で非常に大きな音が発生した場合、その前後に「Critical Band」と呼ばれる、ある特定の領域が生まれます。そして、このCritical Bandに含まれてしまう他の音が一切聞こえなくなります。

 図4で言えば、音Aが発生した場合、その前後の周波数に広がるスロープ状の領域がCritical Bandです。Critical Bandからはみ出す音Bの部分は問題なく聴けるのですが、Critical Bandにすっぽり入ってしまう音Cは聴こえなくなってしまいます。

 MPEG Audioでは、このCritical Bandによって聴こえなくなる音のデータを、先ほどと同様に省くという形で圧縮効率をさらに上げるようにしています。ちなみに、マスキング効果自体は周波数方向だけではなく、時間軸方向にも有効です。つまり、大きな音が発生した直後だけでなく、なぜか直前も小さな音が聴こえなくなります。これをテンポラル・マスキング効果といいますが、図5で音Bと音Cは聴こえなくなってしまうわけです。これもデータ圧縮には効果的です。


図5:テンポラルマスキング効果

 さてそのMPEG Audioですが、当初はLayer I~III、その後もLayer IVも追加されたのですが、このLayer IVの音声圧縮部分はLayer IIIとほとんど同じもので、普及しませんでした。

 Layer I~IIIの違いですが、表にまとめた通りです。Layer Iが1番シンプルで、帯域を32のバンド(これをサブバンドと呼ぶ)に分割、それぞれ独立に符号化します。1つのサブバンドあたり12サンプルで、合計384サンプルという計算になります。またステレオに出てくる「Joint Stereo」とは、高い周波数に関しては波形はモノラルで、強さだけをステレオで格納することでデータ量を減らす方法です。

サブバンド符号化 ビット割り当て グルーピング ステレオ その他
Layer I 32サブバンド 384Sample/Frame なし Joint Stereo  
Layer II 1152Sample/Frame 3つ
Layer III 32サブバンド+MDCT MS Stereo ハフマン符号化


 このLayer Iに、グルーピングを追加したのがLayer IIです。3フレーム分、1,152サンプルをまとめて符号化することで効率化を図るというもので、他にビット割り当てを可変にする機能も追加されています。

 最後がLayer IIIです。まず、サブバンドの符号化に「MDCT(Modified Discrete Cosine Transform:変形離散コサイン変換)」を施すことで、周波数帯域を細かく分割できるようにしました。またステレオについては、「MS(Middle/Side)ステレオ」と呼ばれる技法を採用しました。これは「L(Left)」と「R(Right)」を個別に送る代わりに、L+RとL-Rという信号を送る方法です。

 ちょっと古い話ですが、ラジオのFMステレオ放送が同じようにL+RとL-Rの信号を送っています。これは、「モノラルラジオはL+Rだけを受信して出力し、ステレオラジオは両方を受信してLとRを分離できる」というアイディアなのですが、MP3の場合はこれによりL+Rの信号に多くのビットレートを割り当てられ、符号化効率を高められるというのが目的です。最後にハフマン符号化ですが、先に出たMDCT処理によるDCT係数をハフマン符号で符号化することで圧縮効率を上げるというものです。

 大雑把に3つのLayerを説明しましたが、圧縮効率という意味ではLayer I、Layer II、Layer IIIの順に効率が上がります。同程度の音質とする場合、Layer Iで128kbpsなら、Layer IIで96kbps、Layer IIIで64kbpsまでビットレートを削減できます。その一方、処理負荷もまたLayer I、Layer II、Layer IIIという順となります。

 実際、MPEG-1がAudioに「MP3(MPEG Audio Layer III)」ではなく、「MP2(MPEG Audio Layer II)」を採用したのは、当時はオーディオの再生にMP3は重過ぎる処理だったことの証しといえます。ところがその後、半導体技術の進歩などで携帯機器でも楽にMP3の再生ができるようになった、ということでしょう。



これからのMP3

 ところで、先ほど「MP4(MPEG Audio Layer IV)」の話をしましたが、MP3に著作権保護メカニズムを加えたものだと考えれば良いでしょう。ただ、MP4はMP3と互換性を持っておらず、対応機器がほとんどありませんでした。おまけに、他にも著作権保護を搭載したフォーマット(WMAなど)が登場したことで廃れてしまい、MP4という名前がMPEG-4のコンテナに流用されたことで、黒歴史の仲間入りをしてしまいました。

 ただ、MP3のネックになったのが、著作権保護の欠如であることは間違いありません。結果、非常に多くの「著作権保護対応」を謳った独自フォーマットや機器が一時期登場しましたが、ごく少数のフォーマットを除き、そのほとんどが廃れてしまいました。この理由の大きな部分は使い勝手の悪さですが、すでに大量に出回っているMP3フォーマットを再度変換するのに手間がかかってしまうという点も無視できない理由の1つでしょう。

 例えば、筆者も手持ちの音楽CDの大半をMP3化してHDDに保存しているのですが、今数えたら2,519曲もありました。これを改めて別のフォーマットに変換するのはちょっと苦労で、やはりMP3のままにしておきたいところです。結果、世の中のメディアプレーヤーやポータブルプレーヤーでMP3を再生できない物はほとんどマーケットから駆逐されてしまい、これがまたMP3の圧倒的なシェア確立に一役買うという構造になるわけです。

 そうは言っても、特に音質の点ではいろいろ問題があるのは事実です。冒頭でMPEG Audioが聴覚心理を利用することを説明しましたが、聴覚は最終的に個人差があるわけで、MP3で想定したラウネスド曲線に当てはまらない(もっと音がよく聴こえる)人には、MP3の音は耐えがたいでしょう。また、MPEG Audioは非可逆、つまり一度圧縮してしまうと元の音質に戻せないのも問題です。こうしたこともあり、より高音質なWMAやOgg Vorbis、あるいは可逆圧縮が可能なFLACとかTTAなど、さまざまなフォーマットが世の中に登場しつつあります。

 また、MPEG Audio自体もMPEG-2/4で使われている「AAC(Advanced Audio Codec)」に進化しており、AppleはこのAACを積極的に採用しています。ただ、これによりMP3が駆逐されるということは今のところ起きそうになく、両立するかたちで今後もMP3は使われていくでしょう。


2006/11/13 11:01

槻ノ木 隆
 国内某メーカーのネットワーク関係「エンジニア」から「元エンジニア」に限りなく近いところに流れてきてしまった。ここ2年ほどは、企画とか教育、営業に近いことばかりやっており、まもなく肩書きは「退役エンジニア」になると思われる。(イラスト:Mikebow)
Broadband Watch ホームページ
Copyright (c) 2006 Impress Watch Corporation, an Impress Group company. All rights reserved.