• Web日志分析

    Posted on 一月 8th, 2009 inetdemon No comments

    打印所有IP, 并按IP排序
    cat 1.log |awk ‘{print $1}’| sort | uniq -c |sort -nr |less
    然后用 ip地址查询or ip-adress.cm,决定是否 deny 掉。在 ubuntu 下直接使用
    whois xxx.xxx.xxx.xxx

    统计网站被Google和百度索引的情况:
    #!/bin/sh
    YESTERDAY=`date -d yesterday +%y%m%d`
    LOG_PATH=’/home/apache/logs’
    grep -i Googlebot $LOG_PATH/access_log|awk ‘{print $7}’ |sort -u>spider/$YESTERDAY.googlebot.txt
    grep -i baiduspider $LOG_PATH/access_log|awk ‘{print $7}’ |sort -u>spider/$YESTERDAY.baiduspider.txt

    awk ‘$4 ~/^\[08\/Jan\/2008/(print $0}’ 1.log 打印2008年1月4日的日志
    awk ‘$9 == “200″ || $10 < 20 && $1 != 58\.37\.170\.231′ 1.log 如果返回代码不是200或者返回数据少于20并且非内网用户,则返回log
    awk学习笔记awk编程学习笔记

    Leave a reply