2009/11/26

アクセス解析ツールのいけてない集計仕様、番外編

これは現在読んでいるAvinash KaushikのWeb Analytics 2.0にもあったし、僕も残念と思っていたことなので、番外編として書いておこう。

それは何かというと、任意の期間を指定した時の、ユニークユーザ数の指標の数値である。ツールによって、様々なので一般論として書いておく。

例えば日別のユニークユーザ数とは、その日に何度訪問しても一人とカウントする指標だ。では月曜日、火曜日、水曜日に以下のようなユニークユーザの訪問があったとして、月曜日から水曜日を集計期間に指定してユニークユーザをどう算出してくれるだろう。

日別の集計データ;
月曜日:AさんとCさんが訪問→2ユニークユーザ
火曜日:AさんとBさんが訪問→2ユニークユーザ
水曜日:Bさんのみが訪問→1ユニークユーザ

月曜日から水曜日のユニークユーザ数
ツールA:5ユニークユーザ(日別のユニークユーザ数を単純に足しあげただけ)
ツールB:3ユニークユーザ(重複を除くA,B,Cさん)

そう、本来は集計期間における重複を除くユーザ数をカウントしたいので、ツールBの3ユニークユーザと出して欲しいところだが、多くのツールでは、この場合、3日間の単純合計なのに「ユニークユーザ」と表現していることが多い。正確に表現するとすれば、「該当集計期間の日別「ユニークユーザ」の単純合計」であって、「該当集計期間でのユニークユーザ数」ではない。もちろんツールによっては、それを注記しているが、そういう注記のない場合は、マニュアルに記載してあれば良心的なツールだが、いくつか集計してみて確認しなければならないこともある。

もちろん、ツールによっては、「訪問(セッション、ビジット)」と「ユニーク訪問者」という言葉の定義自体が混同して使われているものもあるが、それは問題外として今回の議論からは外しておく。

ツールベンダーに居たので、何故このようにしたくなるのかは重々承知している。処理速度を速めるために以下のことが推奨されるからだ。どのルーツでも同じような思想で設計されているのではないだろうか。

・頻繁に使うデータは事前に作っておき、取り出すだけにしておく
・それは日別、週別、月別、四半期別などの期間がプリセットされている固定データ
・任意の期間のデータはこれらから出来るだけ足しあげて作り、なるべくリアルタイム処理はしない

このケースでは、日別、週別、月別など期間がプリセットしてあるデータは、当然、本来の重複を除く「ユニークユーザ」で正しく集計しているのだが、1週間や1ヶ月などのぴったりした区切りでな い期間が指定された場合には、これらを組み合わせたりして、その指定期間で重複を除く「ユニークユーザ」の集計をしないで済ますことが多いのだ。

そのためキャンペーンなどで月の途中のデータなどが必要になる場合、ユニークユーザ数など単純に足しては算出できない指標については、「日別の合計です」と注記を出して納得してもらうか、ここだけ「本当のユニーク」の算出のためにクエリーをその時点で回して正しい数値をリアルタイムに計算するかの、どちらしかない。

アクセス解析ツールで応答が悪いのは致命的なので、こういった対処をするのは致し方ないだろう。一方で、高速処理を実現し、リアルタイムでこのようなデータも集計したりすることを特徴とするツールもある。元データを全て保有し、過去に遡って自由なセグメントで集計できるツールもある。


関連リンク:
アクセス解析ツールのいけてない集計仕様ベスト3、第1位
アクセス解析ツールのいけてない集計仕様ベスト3、第2位
アクセス解析ツールのいけてない集計仕様ベスト3、第3位

0 件のコメント: