2007/11/02

サイト競合比較にAlexa(アレクサ)を使っていけない理由

Alexa(アレクサ)の問題点で述べた話は、専門家でないとわかりにくい表現だったかもしれないので、再度詳しく取り上げてみた。

ウェブの世界ではアクセス解析によって効果測定が比較的簡単にできるため、データが使われる頻度が上がってきた。これはこれでよい事なのだが、データを使うリテラシー(私はこれをデータ・リテラシーと呼んでいる。学術的にどのような言葉を使っている大学教授も既にいるが、私は様々な数字を扱うあるいは分析するための基礎的な技能という意味で使っている)のあまりない人が、その使い方を誤るために、おかしな数字を一人歩きさせることがウェブの世界でも増えていると感じている(世の中の一般的な傾向に追随しているだけで、殊更異常に多いということではないが)。

だからこそ、その人たちを非難するのではなく、よい方向に導きたいという思いで書いているわけだ。広告代理店などでメディアリサーチやマーケティングリサーチなどの経験がある人は、各種媒体の定量評価は身近にやっていると思うが、エラーや帯域解析などから入ってきたサーバ・ログを扱うIS系の人達や、デザインやhtml制作から入ってきたウェブ制作系の人達の中には、あまりこういった数字の扱い方を慣れていないのが一般的だろう(勿論オールラウンドな人もいる)。

ウェブはメディアなので、アクセスデータもネット視聴率もメディアリサーチの領域に属する。メディアリサーチの専門書は記憶に無いが、テレビ視聴率に関する本は幾つかでているので、まずはその辺りを読んで欲しい。また「社会調査のウソ」や「統計でウソをつく方法」といった類の本もいっぱいある。それらを読んでも正しくデータを扱えるようになる保障はないが、数字を扱うことに細心の注意を払うようにはなるだろう。

さて調査のスタートは調査協力者がいないといけない。サンプル調査ならまずはきちんとしたランダムなサンプリング(調査対象者の抽出)が大前提となる。計算式は省略するが、サンプル数が決まれば、統計的な誤差というものが算出できる。これをサンプリング誤差といって、例えば関東エリア600世帯のテレビ視聴率データで、30%という視聴率が出た場合には、95%の信頼性(同じ調査を100回やったら95回はその中に納まるという確率の話)で、誤差が3.7%つまり26.3%から33.7%の範囲に実際あるだろうと推測されるということになる。

しかし実際は完全なランダムサンプリングは無理なので、精度の高い調査を行うには、なるべくランダムの度合いを高めることが必要になる。テレビ広告市場のように2兆円もの金が動くマーケットでは当然高い精度が求められる。一方ポイントがもらえるといった特定のインセンティブで、自主的に手を挙げて参加する形の調査モニターの場合は、そもそもランダムではないので、こういったサンプルのことを「偏ったサンプル」と呼ぶ。

偏りのあるサンプルでは、上で紹介した統計的誤差はそもそも算出できない。かき混ぜれば30度のぬるま湯かもしれないものが、70度とも95度としても計測される可能性がある訳で、極論すれば計測されたある瞬間の絶対値には何の意味もない(勿論トレンドとか相対比較とか別の活用方法を否定するものでは全然ない)。

もうお分かりだろうが、Alexa(アレクサ)はブラウザにインストールするツールバーをダウンロードして利用するという非常に特殊なモチベーションをもった人による自主参加型調査と言える訳で、協力者が100万人いても精度は低い。何故かもう少しわかり易く言おう。日本の何百万人の巨人ファンが全員サンプルになっている調査で、応援している野球チームの調査をしたと考えて欲しい。調査の精度は人数の多寡ではなく、ランダム抽出度に依存するので、いくら数が多くても意味が無いことがお分かり頂けるだろう。ということでAlexa(アレクサ)がどういうデータを取得しているかを調べる以前のこの段階で、私なら使わないということになる。

さて何故使えないのかを実際のデータを使って紹介しよう。といってもよそ様のブログの記事を紹介するのだが、まずはSEOで有名な住 太陽氏のこの記事から。
http://www.motoharusumi.com/jobs/marketing/thoughts_on_megahits_sites_and_alexa_data.html

記事内では、Alexa(アレクサ)の数字を利用し、ソニーやトヨタのサイトと彼のサイトのアクセス量が殆んど同じレベルにあるという例を挙げている。「ああ、この人もやっちゃったか」と思ったのだが、最後の方になって、自分のサイトの実態は当然違うし、「実情とはまったく異なるデータが出てしまうわけです」とコメントしている。つまりきちんと分かっているのだが、このエントリーのオチをという場所で紹介しているので、やはりこのような影響力のある人には結論を先に話してもらわないと、途中まで読んで誤解してしまうユーザも山のようにいるだろうと危惧する。

また彼がそのエントリーの中でも紹介している、ミツエーリンクスの棚橋氏のブログDESIGN IT! w/LOVEでも見たことがある。確かにある文脈の流れでの紹介なのだが、ユーザの多くは数字だけ見てミスリードするのだということを是非理解して欲しい。だからこそその道のプロの人には安易にAlexa(アレクサ)の利用例を見せて欲しくないのだ。

違う例だが、これはAlexa(アレクサ)で上位に上がった企業が宣伝材料として使う例で、私が大企業の宣伝担当で調査データの精度など気にしない立場に居ればやるだろうし(笑)、第3者調べデータなので、捏造とは言えないので、これを非難するものではないが紹介しておく。
「FC2、ネット視聴率で Google を抜いて国内第2位に~Alexa が報告」
http://japan.internet.com/wmnews/20071017/11.html

さらにこれが痛烈で面白かった。「ALEXAのランクを簡単に上げる方法」
http://www.hotwebmagazine.com/16
かつて私が所属していた企業で行っていたある「賞」で、会社ぐるみの組織票があったことを思い出した。完全な自主的参加型ではないので影響は限られるのだが、アンケート調査への外部からの意図的な働きかけだ。もちろん調査員などがデータを捏造する「メイキング」なんてものもあるのをご存知だろうか。これは内部によるデータの改ざんだ。

どうだろう、これらは氷山の一角で、如何に調査データが危ないものかがわかるだろう。もちろんきちんとした調査会社は、こういったことがおきないような対策を講じたりしており、品質管理がノウハウとして非常に重要であるということだ。教訓はやはり「只ほど高いものはない」ということか。アクセス解析も、主要指標の計算式を確かめたことがあるだろうか。殆んどの人はないだろう。当然こうだろうと思っていたものが違っていることなんて、実はよくある話だ。 他にも落とし穴は山ほどある。

最後にダメ押しを一つ紹介して終わる。
「AlexaによるとYouTubeはGoogleを超えたそうだ。Alexaは使えない」
http://jp.techcrunch.com/archives/alexa-says-youtube-is-now-bigger-than-google-theyre-wrong/

是非、数字に騙されないようになろう。

1 件のコメント:

waka さんのコメント...

主に上司を喜ばせる(だます?)時に使われていて、「実害」はないのかと……。

ページランクと一緒で、数値を確認したいんでしょうよ。
ブロガーたちもネタにはしてるけど、「インチキ」的な認知で。ページランク崇拝者は信じるのだろうけど。