Broadband Watch logo
バックナンバー

その116「DLNAの仕組み」
[2007/03/26]
その115「ドメインとActive Directory」
[2007/03/19]
その114「ワークグループができること」
[2007/03/12]
その113「WPSの仕組み」
[2007/03/05]
その112「Gopherの生い立ちと現在」
[2007/02/26]
その111「Wikiの使われ方」
[2007/02/19]
その110「文字コードとは」
[2007/02/05]
その109「IISの生い立ち」
[2007/01/29]
その108「NASの登場と一般への普及」
[2007/01/22]
その107「HomePNAのいろいろ」
[2007/01/15]
その106「Ogg Vorbisの成り立ち」
[2006/12/25]
その105「MIDIの原理とSMFの構造」
[2006/12/18]
その104「AIFFの構造」
[2006/12/11]
その103「WAVの構造と現状」
[2006/12/04]
その102「WMAの歴史」
[2006/11/27]
その101「AACの特徴」
[2006/11/20]
その100「MP3/MPEG Audioの仕組み」
[2006/11/13]
その99「HSDPAの仕組み」
[2006/11/06]
その98「H.264・MPEG-4 AVCの特徴」
[2006/10/30]
その97「IEEE 802.16e(モバイルWiMAX)の特徴」
[2006/10/23]
その96「TIFFの特徴」
[2006/10/16]
その95「PNGの現状と今後」
[2006/10/02]
その94「GIFの構造」
[2006/09/25]
その93「10GBASEの種類(2)」
[2006/09/11]
その92「10GBASEの種類」
[2006/09/04]
その91「GbEのいろいろ」
[2006/08/28]
その90「JPEGの特徴」
[2006/08/21]
その89「DivXの広がり」
[2006/08/07]
その88「MPEGの仕組み」
[2006/07/31]
その87「WMVのこれまで」
[2006/07/24]
その86「AVIの生い立ちとそのコーデック」
[2006/07/10]
その85「QuickTimeの変遷」
[2006/07/03]
その84「Realのこれまでと今後」
[2006/06/26]
その83「ShareとWinny」
[2006/06/19]
その82「DOCSISの仕組み」
[2006/06/12]
その81「SQLインジェクションの流れ」
[2006/06/05]
その80「RSSの動作」
[2006/05/29]
その79「Skypeの仕組み」
[2006/05/22]
その78「BitTorrentの特徴と今後」
[2006/05/15]
その77「Winnyの仕組みと現状」
[2006/05/08]
その76「WinMXの特徴」
[2006/04/24]
その75「Gnutellaの歴史と構造」
[2006/04/17]
その74「Napsterの歴史」
[2006/04/10]
その73「P2Pのいろいろ」
[2006/04/03]
その72「IEEE 802.11nの動向」
[2006/03/27]
その71「ActiveX Scriptingの動作」
[2006/03/20]
その70「Ajaxの仕組み」
[2006/03/13]
その69「DHTMLの動作」
[2006/03/06]
その68「Scriptの定義」
[2006/02/27]
その67「JavaScriptの仕組み」
[2006/02/20]
その66「Javaの動作」
[2006/02/13]
その65「RFCのプロセス」
[2006/02/06]
その64「ActiveX DocumentとActiveX Controlの違いと共通点」
[2006/01/30]
その63「ActiveX Controlの機能」
[2006/01/23]
その62「ActiveXを構成するもの」
[2006/01/16]
その61「Cookieの仕組みと用途」
[2005/12/26]
その60「malwareとその分類」
[2005/12/19]
その59「rootkitの動作」
[2005/12/12]
その58「CSSの役割」
[2005/12/05]
その57「HTMLの変遷」
[2005/11/28]
その56「PONとその種類」
[2005/11/21]
その55「FWAの仕組み」
[2005/11/14]
その54「DoSとDDoS」
[2005/11/07]
その53「SNMPとMIBの動作」
[2005/10/03]
その52「Jumbo Frameとフレームサイズ」
[2005/09/12]
その51「WPA2の仕組み」
[2005/09/05]
その50「WPAとWPA-PSKの違い」
[2005/08/29]
その49「WPAの仕組み」
[2005/08/22]
その48「WebDAVの動作」
[2005/08/08]
その47「OFDMAの仕組みとOFDMとの違い」
[2005/08/01]
その46「OFDMの仕組み」
[2005/07/25]
その45「WiMAXの特徴」
[2005/07/11]
その44「Wi-Fiの役割」
[2005/07/04]
その43「FTPの目的と動作」
[2005/06/27]
その42「UPnPの動作」
[2005/06/20]
その41「ネットマスクの仕組み」
[2005/06/13]
その40「ARPの機能」
[2005/06/06]
その39「DNSの原理」
[2005/05/30]
その38「デフォルトゲートウェイの役割」
[2005/05/23]
その37「MACアドレスの仕組み」
[2005/05/16]
その36「スイッチとその進化」
[2005/05/09]
その35「ルータによるメリット」
[2005/04/25]
その34「ブリッジの原理」
[2005/04/18]
その33「リピータの機能」
[2005/04/11]
その32「IPアドレスのクラス」
[2005/04/04]
その31「ブロードキャスト/マルチキャスト/ユニキャスト」
[2005/03/28]
その30「SMTP AUTHと認証の種類」
[2005/03/14]
その29「Submissionポートとスパムメール対策」
[2005/03/07]
その28「Outbound Port25 Blockingとは」
[2005/02/28]
その27「PGPの仕組み」
[2005/02/21]
その26「PKIと認証局」
[2005/02/14]
その25「公開鍵暗号方式とは」
[2005/02/07]
その24「共通鍵暗号とは」
[2005/01/31]
その23「SSHの仕組みと応用」
[2005/01/24]
その22「SSLの役割」
[2005/01/17]
その21「POP3とIMAP4の違い」
[2004/12/27]
その20「POP3の役割と機能」
[2004/12/20]
その19「SMTPの機能と問題点」
[2004/12/13]
その18「SPIとパケットフィルタリング」
[2004/12/06]
その17「LANの概念とその広がり」
[2004/11/29]
その16「SIPの役割」
[2004/11/15]
その15「プロキシの利用」
[2004/11/08]
その14「VoIPの仕組み」
[2004/11/01]
その13「イーサネットとは」
[2004/10/25]
その12「IP/TCP/UDP/ICMPとは」
[2004/10/18]
その11「DHCPの役割」
[2004/10/04]
その10「MIMOとは」
[2004/09/27]
その9「DMZとその効果」
[2004/09/13]
その8「ファイアウォールとは」
[2004/09/06]
その7「NATとNAPTの違いとIPマスカレード」
[2004/08/30]
その6「VPNとVPNパススルーの仕組み」
[2004/08/23]
その5「無線LANの問題とWEP」
[2004/08/09]
その4「IEEE 802.11a/b/gって何を意味しているの?」
[2004/08/02]
その3「ダイナミックDNSって?」
[2004/07/26]
その2「グローバルIPアドレスとプライベートIPアドレス」
[2004/07/12]
その1「PPPoEって何だろう?」
[2004/07/05]

その103「WAVの構造と現状」


WAVって何?

 「WAV」は「WAVE」ファイルの俗称で、拡張子が「.WAV」であることからこの名前がつきました。拡張子、という言葉からわかる通り、もともとはMicrosoftのWindows用に作られた規格です。正式には「RIFF waveform Audio Format」と言い、1991年にIBMとMicrosoftが共同で制定しました。

 RIFFとは「Resource Interchange File Format」の略で、単に音声のみならず、さまざまなデータを交換するための包括的なフォーマットとなっています。WAVは、このRIFFの枠組みを使って音声を交換するための派生形であると考えるのが妥当でしょう。

 1991年と言えば、Microsoftが「Windows 3.0 MME(Windows 3.0 with Multimedia Extensions)」を発売した年でもあります。それまで音声や動画などの取り扱いが一切できなかったWindowsに、MMEを追加することで音声や動画への対応が可能になったわけですが、そのためには音声や動画のフォーマットを定める必要があります。動画はすでにAVIの回で紹介した通りですが、それの音声版がWAVというわけです。


WAVの構造

 WAVフォーマットの構造を簡単に図1にまとめてみました。最初にRIFFのヘッダがつき、その後にWAVフォーマットのヘッダ、次いでデータという構造で、こうした部分はAVIフォーマットの構造と良く似ているのがわかると思います。最初にあるRIFFのヘッダ(正式にはRIFF chunk descriptor)は12バイトのみで、冒頭4バイトでRIFFフォーマットであることを宣言、最後の4バイトでWAVフォーマットであることを宣言するだけの単純なものです。

 続く、WAVフォーマットのヘッダ(fmt sub-chunk)はもう少し項目が多いのですが、圧縮方法にPCMを使う限り内容は簡単です。PCMの場合、例えばステレオ/22.1kHz/16bitと言えば、フォーマットが一意に特定されます。ステレオとはチャネル数が2、22.1kHzはサンプリング周波数、16bitはサンプリング解像度となるわけですが、WAVフォーマットヘッダはこれらのパラメータを順に埋めていくだけのものです。

 Extra Param Size/Extra Parameterは、PCM以外のフォーマットである場合に必要であれば使う、という拡張部分ですが、後述のようにこれが使われるケースは極めて稀です。また、データ部は、データそのものが入っています。


図1:WAVフォーマット

図2:PCM
 さて、ここでPCMについても、簡単に説明しておきたいと思います。まず、音声については複雑な波形をしています。例えば、オシロスコープにマイクを繋いで声を吹き込むと、振幅や波長がさまざまな、図2で言うと黒い線のような変化をします。この信号を、縦軸を電圧、横軸を時間として取り込んだ上で、適当に量子化および標本化と呼ばれる処理を行ないます。図2の赤・黄・青が、この量子化・標本化後の例です。

 赤・黄・青の違いは、縦軸と横軸をどれだけ細かく分割するかという点です。赤が1番荒く、青が1番細かいわけですが、当然信号を忠実に再現できるのはより細かく分割して取り込む青のケースです。この細かさですが、縦軸方向がサンプリング解像度、横軸方向がサンプリング周波数と呼ばれます。サンプリング解像度8bitということは、図2で黄緑の破線までの高さを8bit=256分割するという意味で、16bitなら65,536分割になります。

 一方、サンプリング周波数が22.1kHzというのは、1秒間を22,100分割する意味になります。図2で、2本ある水色の縦線の間が例えば1秒だとすると、赤はサンプリング周波数4Hz(4分割)、青なら16Hz(16分割)になります。

 標本化に関しては、伝達周波数の2倍の標本化速度とすると忠実に再生できる、という定理があります。人間の耳は概ね20Hz~20kHzまでの音が聴こえるので、サンプリング周波数を40kHzとすると高音域まで忠実に再生できることになります。一方、サンプリング解像度の方は8bitだと電話並みと言われ、音楽鑑賞に耐えるのは最低でも16bitと言われます。

 話をWAVフォーマットに戻すと、こうしたわけでデータ部にはサンプリングされたデータがひたすら蓄積されるというわけです。


WAVの現状

 WAVはフォーマットが簡単で、ちょっとしたヘッダのあとには生データがひたすら入ってるだけですので、プログラムなどで取り扱うには便利です。その反面、データサイズはとても巨大になります。例えば、ステレオ再生を考えると、2chで44.1kHz/16bitとした場合、1秒あたりのデータ量は概ね172.3KBほどになります。

 よって、1分だと10.1MB、1時間だと605.6MBほどになります。650MB容量のCD-ROMが音楽を記録する場合に、1時間しか入らないというのは、音楽CDもPCMを使ってデータを記録しているからです。音楽CDとしてメディアをやり取りする分にはともかく、インターネットなどでデータ交換を行なうにはデータサイズがあまりに大きすぎます。

 そうなると「適切な圧縮を使えば……」という話になるのですが、ついに現在までWAV用の圧縮は普及しないままです。もちろん、圧縮方法が存在しないわけではなく、Microsoftは「ACM(Audio Compression Manager)」と呼ばれる圧縮方法を標準で提供しています。一応、使われてはいるものの、広く普及するという状況には至っていません。

 理由の1つはACMの圧縮率がそれほど高くないという点で、その後に「MP2/MP3」が登場すると音声圧縮はこちらが主流になってしまいました。Microsoftにしても、現在は「WMA(Windows Media Audio)」に注力しており、結果としてACMは過去との互換性を保つために維持されているといった扱いになっています。

 WAVが不幸なのは、AVIのようにスケルトンとして利用されることがなかった、という点でしょう。例えば、MP2/MP3は独自の「.MP2/.MP3」という拡張子を使い、WMAもやはり「.WMA」を使うという具合に、WAVファイルに独自音声コーデックを組み合わせるという動きはほとんど見られず、結果として.WAVはWAVフォーマットそのものでしか使われていません。

 非可逆圧縮、つまり、ロスレス圧縮についても「WMA Lossless」や「FLAC」、「TTA」、「Monkey's Audio」などのフォーマットが存在しているため、こちらの用途でも普及しているとは言いにくいものがあります。一応、マルチプラットフォームで、MacintoshやUnix/Linuxでも.WAVを扱えるツールは存在しますが、これはWAVのフォーマットが非常に単純でインプリメントしやすいから、という以上の理由ではなく、逆にこれがACMの普及を妨げる理由にもなっていたりするのが皮肉と言えば皮肉です。

 ちなみに、オリジナルのWAVフォーマットは2GBを越えるファイルフォーマットに対応していない(Data sub-chunkの“Subchunk 2 Size”が、2GBまでしか値を入れられない)という問題があります。これを解決した「RF64」という拡張フォーマットも存在しますが、こちらも普及しているとは言いがたい状況です。

 もちろん、WindowsがWAVフォーマットを捨てない限り、WAVがなくなることはないのですが、あまり一般的なデータ交換用途に向いているとは言えません。ときどき、WAVフォーマットの音声データをそのままWebで公開するケースを見ることがありますが、何しろサイズが大きいので、特にWAVフォーマットである必要がなければ、別フォーマットにした方が良いかもしれません。


2006/12/04 11:16

槻ノ木 隆
 国内某メーカーのネットワーク関係「エンジニア」から「元エンジニア」に限りなく近いところに流れてきてしまった。ここ2年ほどは、企画とか教育、営業に近いことばかりやっており、まもなく肩書きは「退役エンジニア」になると思われる。(イラスト:Mikebow)
Broadband Watch ホームページ
Copyright (c) 2006 Impress Watch Corporation, an Impress Group company. All rights reserved.