首页 > 系统管理 > Awstats日志统计和其他统计系统的差异

Awstats日志统计和其他统计系统的差异

2009年1月16日

如果你同时使用awstats分析web日志,也用Google Analytics跟踪web访问,通常你会看到GA的数据比Awstats统计的数据小,而且两者相差很大,是awstats统计的问题还是google analytics的统计疏漏呢? 这是有两种统计方法不同所造成的。
首先,我们看一下用户数的统计。定义如下:
唯一用户数: 用ip 地址 + ua 信息的组合来识别不同的用户访问
访问人次: 被识别的唯一用户在最后一次页面访问后又间隔一定时间(30分钟?)后再次访问,算是该用户的第二次访问。
我们看到GA默认的间隔是30分钟,而Awstats的间隔设置不同。所以导致数据统计不一样。
接下来我们再看一下PV的统计
理论上来说awstats的数据来自于web日志,应该比GA更为精确,但是awstats把很多中间页面也统计了进去,造成数据的不准确。为了更精确地统计web日志,我们看看有哪些是被awstats多统计的访问量,并由日志中统计出的PV量要排除掉他们:

  • 1. 搜索引擎爬虫过来的搜索引擎,爬虫这些访问不是用户行为,应该排除
    处理方法: 一般有异常IP地址的访问量和UA信息的判断获得,排除这些因素的PV量
  • 2. 中间跳转页面中间跳转页面,对用户来说只能看到跳转后的页面信息,之前发起跳转的页面对用户不可见,应该排除
    处理方法: 找出设计中存在的跳转页面,排除跳转前的页面或跳转后的页面所汇集的PV量。
    最好在业务设计和程序设计时做考虑处理,减少中间页面跳转这类的处理。
  • 3. 页面中内嵌的页面这类是使用Frame或Div等形式,嵌在一个页面中的一小块信息,
    处理方法:找出这类地址,对其做访问量排除
    如果内嵌的是广告信息等,可以考虑单独做分析
  • 4. Ajax数据交换使用过的接口页面这类地址一般用户看不到,应该排除,
    处理方法:找出这类ajax文件所在目录,然后在统计量中排除对这些地址的访问,最好在程序设计上将其放到一个目录下,这样可以直接排除对某个目录的访问。
  • 5. 内部数据接口交互使用的PV这个不是针对用户的,也应该排除
    处理方法:如果是从localhost或者本地网的可以单独过滤。对于这个方法排除后剩余的文件,可以找出这类的地址,然后在统计量中排除对这些地址的访问,如果能在架构设计时将其放到一个目录下,这样可以直接排除对这些目录的访问。

在awstats的配置文件中我们可以通过设置SkipFiles, SkipHosts参数防止被统计的页面,比如我们不想统计/ajax/和/globalinclude/目录下的文件,可以设置如下:
SkipFiles=”REGEX[^\/globalinclude\/] REGEX[^\/ajax\/] REGEX[^\/scripts] REGEX[^\/css] REGEX[^\/images]  REGEX[^*\.gif]”
SkipHosts=”localhost REGEX[^192\.168\.]”

为了让首页的统计更精确,可以做如下设置:
DefaultFile=”index.htm index.html index.php”

如果程序设计目录对这些方面考虑得不周全,建议从访问量大的文件先开始过滤,相信一段时间之后,你的日志统计就会越来越精确了。

VN:F [1.9.22_1171]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.22_1171]
Rating: +1 (from 1 vote)

系统管理 ,

  1. dekar
    | #1

    您好 我想问下 awstats统计页面数时 默认不过滤 图片和js这样的文件吗?

    VA:F [1.9.22_1171]
    Rating: 0.0/5 (0 votes cast)
    VA:F [1.9.22_1171]
    Rating: 0 (from 0 votes)
  1. 本文目前尚无任何 trackbacks 和 pingbacks.

This blog is kept spam free by WP-SpamFree.