2007/10/15

平均値の罠1

ある雑誌のアクセス解析の中の記事で、平均(代表値)に関して気になる記述があったので、2回に亘って平均値について考えたい。その記事では、代表値としての「平均」には、単純平均、最頻値、中央値などが紹介されていて特性は述べられているのだが、アクセス解析で現実にどう使うのかという重要なポイントについて参考になる記述がなかった。ここが最も大切なのに。。。

今日の原則:ロングテールな分布をするデータに代表値(平均の指標)は使わない

滞在時間、1訪問あたりのページビュー数などロングテールな利用実態をあらわすものについて、代表値は使わないことをお奨めする。平均値も中央値も最頻値も全体を代表する指標になりえないと考えるからだ。下図はサイト1訪問あたりの閲覧ページビュー数の分布のサンプルである。極端な例のように思われるかもしれないが、これはごく一般的な分布だ。

どれか使える指標があると思われるだろうか。平均値もヘビーユーザの僅かな動きで激変することもある。少なくとも私は値そのものを、指標としては決して使わない。但しパターンが変動しているかどうかの参考値としては使うことはある。

では一体何を使えばいいのか。ずばり分布の形をそのまま目で見てパターンを理解するしかない。単純化して楽をするメリットは全く無いのだ。上で「参考値として使うことがある」と書いたが、平均値が激変した時は、再び分布パターンを見て、構造変化がないかを確かめる(が構造変化は滅多にない)という利用方法になる。

分布を一言で表す指標も使えないことは、「アクセス解析では偏差値は使わない方がよいを参考にして欲しい。四分位範囲 (大小各25%のデータを捨てた最大最小の幅)、分散、標準偏差、偏差値などの指標は、どのアクセス解析のツールでも見たことはないと思う。

ネットレイティングスのネット視聴率のデータで様々なパターンを見てきたし、個々のアクセス解析のデータも多く見てきた結論である。ネット視聴率データも当然平均値という指標がいろいろ出ている。これはさすがに分布の形を一つ一つ見せるのは厳しいという制約のものに考えられているが、一方で、このようなネット利用の特性を捉えているので、分布データもきちんと提供しているのだ。両方を見ることで、いかに平均値だけで判断することが危ないかがよく理解できる。



















関連リンク:

直帰率が低いと、コンバージョンは高くなるか
アクセス解析の直帰率、米サイトタイプ別平均値は?
リンクでしか辿れないページの直帰率が0でない理由は
アクセス解析における月次トレンド・データの見方
米ウェブページ1ページ平均の閲覧時間は55秒
メールでの問い合わせに対する平均反応時間は19時間31分
アクセス解析における「ヒット数」「インプレッション数」とは、WAAの定義集から
アクセス解析における「コンバージョン率」とは、WAAの定義集から
アクセス解析における「コンバージョン(数)」とは、WAAの定義集から
アクセス解析における「一訪問あたりのページビュー数」とは、WAAの定義集から
アクセス解析における「直帰数」「直帰率」とは、WAAの定義集から
アクセス解析における「ページ離脱率」とは、WAAの定義集から
アクセス解析における「一人あたりの訪問回数」とは、WAAの定義集から
アクセス解析における「リーセンシー」「フリークエンシー」とは、WAAの定義集から
アクセス解析における「リピート訪問者数」とは、WAAの定義集から
アクセス解析における「再訪問者数」とは、WAAの定義集から
アクセス解析における「新規訪問者数」とは、WAAの定義集から
アクセス解析における「クリック数」「クリック率」とは、WAAの定義集から
アクセス解析における「ページ参照元、セッション参照元、訪問者の参照元」とは、WAAの定義集から
アクセス解析における「参照元」とは、WAAの定義集から
アクセス解析における「セッション滞在時間」とは、WAAの定義集から
アクセス解析における「入口ページ」「ランディング・ページ」「出口ページ」とは、WAAの定義集から
アクセス解析における「ユニーク・ビジター数」とは、WAAの定義集から
アクセス解析における「セッション数」とは、WAAの定義集から
アクセス解析における「ページビュー数」とは、WAAの定義集から
アクセス解析における「ページ」とは、WAAの定義集から
サイトタイプ別、プロセス別KPI
ユニークビジター数にこだわるな、参照元別直帰率
アクセス解析で直帰率の平均は意味がない
ページビューはあい変らず最重要指標の一つ
平均の罠2(1日平均)
平均値の罠1
4象限グラフの罠
アクセス解析では偏差値は使わない方がよい


0 件のコメント: