Apacheのアクセスログのうち,どの行を省くか.3つ考え方がある.
- 足し算
必要な行を残していく..htmlや.shtmlなど,拡張子で区別するか?その場合,「/」で終わっている行も残すかどうかが問題だ.あと,.cgiも問題だろうな. - 引き算
いらない行を消す.とりあえず,.gif,.jpg,.css,,jsを消しといて,区別する拡張子を様子を見ながら増やしたらよいだろうか.この方が,見落としを洗い出せていいかもしれない. - もっと複雑に
同じIPのものをひとくくりにする.その上で,refererが同じものを洗い出す.残す行を決めるときは,.html・.shtml(必ず残す)>他のファイルという優先順位にする.
だいたいこんな感じだろうか.3をやるのが,一番正確なのだろうが,労力が報いられるほど他の方法と結果が違いそうにない.2を選ぶのが無難か.
あとは何が分かればいいか.
- 集計はいらないと言ったけど,どこにお客さんが多いかは知りたいかも.
- 検索文字列は欲しい.ちゃんとエンコードしてから.
- リファラーも欲しい.でも,自分とこがリファラーになっているのはいらない.
- 待てよ,もしかしたら,IPとリファラーつかって足取りがたどれるのか?
他になにかあるかなぁ.