Web日志分析
打印所有IP, 并按IP排序
cat 1.log |awk ‘{print $1}’| sort | uniq -c |sort -nr |less
然后用 ip地址查询or ip-adress.cm,决定是否 deny 掉。在 ubuntu 下直接使用
whois xxx.xxx.xxx.xxx
统计网站被Google和百度索引的情况:
#!/bin/sh
YESTERDAY=`date -d yesterday +%y%m%d`
LOG_PATH=’/home/apache/logs’
grep -i Googlebot $LOG_PATH/access_log|awk ‘{print $7}’ |sort -u>spider/$YESTERDAY.googlebot.txt
grep -i baiduspider $LOG_PATH/access_log|awk ‘{print $7}’ |sort -u>spider/$YESTERDAY.baiduspider.txt
awk ‘$4 ~/^\[08\/Jan\/2008/(print $0}’ 1.log 打印2008年1月4日的日志
awk ‘$9 == “200″ || $10 < 20 && $1 != 58\.37\.170\.231′ 1.log 如果返回代码不是200或者返回数据少于20并且非内网用户,则返回log
awk学习笔记,awk编程学习笔记