万来堂日記3rd(仮)

万来堂日記2nd( http://d.hatena.ne.jp/banraidou/ )の管理人が、せっかく招待されたのだからとなんとなく移行したブログ。

P2PとサンプリングとRIAJ

facethemusicさん経由、音楽配信メモさんのBBSからの情報で知ったのですが、RIAJ「−ファイル交換ソフト利用経験者は、240.6万人に−『ファイル交換ソフト利用実態調査』結果」 というプレスリリースを行っています。

まず、「ファイル交換ソフト利用経験者は240.6万人に」という表記自体がミスディレクション以外の何物でもありません。
読んでみたら、現在も利用している人数は94.9万人。
なんで「ファイル交換ソフト利用者は94.9万人」という見出しにしなかったの?
まあ、インパクトが薄くなるからでしょうね。


で、ですね、facethemusicさん、及び音楽配信メモBBSの十六夜さんが問題視しているのが以下の点。引用させていただきますと

P2Pユーザーの数に関して、無茶苦茶なごまかしがあることに気付いていますか?
調査総数は23707人です。
このうちナローバンドユーザーが2190人です。
ブロードバンドユーザーは20955人です。
およその比率として、1:10となっています。

で、次にインターネットに接続している人数が、総務省の資料で3389万人と言っていますが、これの元になっている部分、
http://www.soumu.go.jp/s-news/2004/040430_2.html総務省資料『インターネット接続サービスの利用者数等の推移【平成16年3月末現在】(速報)』
(上記資料は『ファイル交換ソフト利用実態調査』で使用されています)
こちらを良く読むと判るように、約1900万人は、ダイヤルアップ型接続、要するにナローバンドなんですね。
標本での構成比は1:10、母集団での構成比は19:14
統計学上、こういう事態が発生するのは、どれくらいの確率なのでしょうか?
こういう無茶苦茶な前提に基づいて数字を出すのって、RIAJの得意技なんですかね?


で、実際に調査報告書を読んでみました。
いや、読んではみたんですが、1ページで読むのを止めてしまいました。
なんでか?
な〜んでか?
それはね、ランダムサンプリングをしていなかったから
堺すすむ師匠の「なんでかフラメンコ」を、いったい何人が知っているのだろうかという懸念はさておきまして、どういうことかと申しますと、いきなりこんな記述があるのです。


【調査方法】
インターネットユーザーを対象として、ファイル交換ソフトの利用実態に関して、インターネット上のWEBアンケートサイトを利用してアンケート調査を実施した。


この時点で駄目。全く駄目です
例えば、著作権法改正に反対する署名が6万弱集まりましたが、これをもって音楽ファン全体ではどのくらいの人数が改正に反対したのか、求めることは出来ません。ランダムサンプリングをしていないからです。ランダムサンプリングをしていないのだから、署名人数は母集団を代表したものとして取り扱うことは出来ません。
例えば、ネット上でCCCDに反対するかしないか、アンケートをとって、反対が90%だったとします。しかし、これをもって音楽ファン全体の90%がCCCDに反対しているということはできません。ランダムサンプリングをしていないからです
同様に、サイトを訪問した人がアンケートに自主的に答えるという、ランダムサンプリングとは程遠いRIAJのアンケート結果をもって、インターネットユーザー全体の推計をすることは出来ません。

なんでランダムサンプリングをしないといけないのか?
ランダムサンプリングをしないと、「たまたまそういう人物が集まっただけ。偶然だよ偶然」という可能性を、絶対に排除できないからです
偶然であるという可能性を排除し得ないデータ(その可能性を最小限にとどめるためのランダムサンプリングを怠ったデータ)をいくつ積み重ねても、母集団の推計などできません。ていうか、してはいけません。
統計学の基本中の基本。
こんなもん、調査というのもおこがましいですよ。
初っ端から踏み外しているのだから、240.6万人という数字も、94.9万人という数字も、なんの意味も持ちません


ていうかね、こんなボロボロの調査報告を公開すること自体、とても恥ずかしいことなんですよ?