如何屏蔽Yisou Spider

症状:

最近公司的一个放在AWS SG的购物网站,发现有好多访问来源是YiSou Spider,把机器拖得很慢,而且这个YiSou Spider也不按照标准的robot.txt规则抓取,连续好几天一直抓,简直是一个DDOS攻击,所以只能IP屏蔽了。

 

 

 

寻找解决方案:

网上参考了一些资料(http://www.tuicool.com/articles/ayeyqa)。

1.怎么抓住这个YisouSpider爬虫?
2.直接封YisouSpider方法。
3.检测配置有效性

怎么抓住这个YisouSpider爬虫?

Nginx为例,日志文件为

access.log
cat grep access.log
命令
cat access.log | grep -i "YisouSpider" | awk '{print $1}' > iplog.txt

将他的抓取ip日志保存起来。
分析统计,连续的IP,C段IP计算,这蜘蛛它的IP资源挺多啊!

cat iplog.txt | awk -F'.' '{print $1"."$2"."$3".0"}' | sort | uniq -c | sort -r -n > stat_ip.log

我的机器是这样的:

以下是我的机器的搜索引擎蜘蛛爬虫IP地址

127 42.120.160.0
112 42.156.139.0
111 42.156.138.0
110 42.48.109.0
108 42.156.136.0
107 42.120.161.0
102 218.75.177.0
85 42.156.137.0
23 218.65.212.0
开始用iptables屏蔽:

iptables -I INPUT -s 42.120.160.0/24 -j DROP
iptables -I INPUT -s 42.156.139.0/24 -j DROP
iptables -I INPUT -s 42.156.138.0/24 -j DROP
iptables -I INPUT -s 42.48.109.0/24 -j DROP
iptables -I INPUT -s 42.156.136.0/24 -j DROP
iptables -I INPUT -s 42.120.161.0/24 -j DROP
iptables -I INPUT -s 218.75.177.0/24 -j DROP
iptables -I INPUT -s 42.156.137.0/24 -j DROP
iptables -I INPUT -s 218.65.212.0/24 -j DROP

 

最后:

记得保存 service iptables save 然后service iptables start,经过这几步操作后,就再也看不到Yisou了

提醒:

不过发现网站变慢了,没事,再加一条规则: -A INPUT -i lo -j ACCEPT 全部搞定。