Dragon
  • 注册、登陆后即可全站无广告畅快浏览本博客了!
  • 本博客已开启支持百度AI智能内容自动审核机制!
明月登楼明月登楼  2021-08-24 22:21 明月登楼的博客 隐藏边栏 |   17 条评论  144 
文章评分 21 次,平均分 4.6
导语: 看到这久违的负载值,这几天的忙活没有白费,这次经历下来让明月对于运维这个工作的认识又加深了不少,这是一个随时都要面对挑战,并且,当面临挑战的时候要平心静气的分析、整理、思考后解决问题并制定出详细的预防方案并实施

这次诡异的经历时间长达十多天,期间明月网站服务器的负载多次飙升到极限,每次都是强制停止 php-fpm 进程来缓解,可以说严重影响了博客网站的正常运行,刚开始明月还以为是又碰到个“手欠”拿我博客来练手 CC/DDos 攻击的,但是随后几天的日志分析结果外加明月多年以来被 CC/DDos 攻击经验判断排除了被人攻击的可能性,原因嘛?很简单,你见过有人用百度蜘蛛爬虫IP 来实施 CC/DDos 攻击吗?反正,明月是没有见过!

刚开始明月也是不相信会是百度蜘蛛爬虫造成的这个结果,但是在把几天的 Nginx 日志里的 IP 进行了筛选后得出的结果是这些爬虫的 IP 几乎都是真实的百度蜘蛛爬虫IP,并不是简单的 UA 仿冒百度蜘蛛爬虫。我去,这个结果真心让人很郁闷呀:我竟然被别人梦寐以求的百度蜘蛛爬虫给围殴了

俗话说“事出反常必有妖”,本着这个思路明月开始了为期一周的排查工作,因为【不熬夜,是最顶级的自律】和【熬夜如何改变了我们的身体】这两篇文章的缘故明月正在戒掉“熬夜”这个习惯(希望像明月戒烟一样能成功哦!)所以这次排查工作效率很低,都是抽空进行的,需要多次随机的抽查这些蜘蛛爬虫请求的 User Agaent、IP、链接、主机域名等等数据,直到今天终于让明月给找到问题出在哪里了?

造成百度蜘蛛爬虫这次大批量、持续性的抓取一个最主要的原因是百度站长平台的“抓取频次”过高造成的,查看百度站长平台站点抓取频次如下图:

可以看到是 21912 次/天,可以想象这个频次给网站服务器带来了多大的压力呀!一直到最后明月才发现这次是两个站点的高频次抓取一起汇总到我一个服务器上来了,上面这个 21912 次/天是 blog.ymanz.com 这个域名站点的抓取频次,还有一个抓取频次就是我博客的域名 imydl.com 的抓取频次是 17982 次/天。两个站点相叠加那就是每天接近 40000 次的抓取频率,平均到每分钟就要接待近 30 次的请求,无语了!

这负载给拉的是满满的,要知道明月的服务器配置可是早期阿里云 ECS 最低配置:1H1G 哦

我这小驴车怎么经得起这么折腾,所以明月发现问题后赶紧解决,首先是取消掉 blog.ymanz.com 的解析(这是明月博客早期的域名,目前看来只能是放弃解析跳转了),其次调低百度站长平台里 blog.ymanz.com 和 imydl.com 站点的抓取频次每天上限:

因为 blog.ymanz.com 是个废弃域名了,所以直接调整到最低值。

经过上述操作后,随后的几个小时百度蜘蛛爬虫来访的频率降下来了,服务器的负载也难得的恢复如初:

看到这久违的负载值,这几天的忙活没有白费,这次经历下来让明月对于运维这个工作的认识又加深了不少,这是一个随时都要面对挑战,并且,当面临挑战的时候要平心静气的分析、整理、思考后解决问题并制定出详细的预防方案并实施,如果您是一个网站运营者并不是很懂服务器运维,那么明月建议您可以考虑一下运维外包服务,比如明月自己就有提供这种有偿服务哦:

明月登楼云服务器代运维服务-BG
明月登楼云服务器代运维服务

明月登楼云服务器代运维服务[出售]

明月登陆为您提供远程云服务器代运维服务,主要为您提供如下专业服务: 1、云服务器的部署、安装调试、调优。 2、云服务器生产环境的安装调优、更新以及漏洞修复。 3、定期的云服务器安全防御策略制...

有兴趣的朋友可以了解一下哦,有什么不明白也可以加明月的微信详聊!

「点点赞赏,手留余香」

1人已赞赏

  • 匿名

    匿名: 感谢分享!

    ¥ 1.00
明月登楼给明月登楼打赏
×
予人玫瑰,手有余香
  • 2
  • 5
  • 10
  • 20
  • 50
2
支付

本文来自投稿,不代表明月登楼的博客立场,版权归原作者所有,欢迎分享本文,转载请保留出处!

明月登楼
明月登楼 关注:1    粉丝:0
玉满斋(www.ymanz.com)网站创始人,☑玉器爱好者 ☑微博控 ☑手机控 ☑历史控 ☑宅 ☑网络控 ☑Wordpress控

发表评论

表情 链接 私密 格式 签到
  1. 闲鱼
    闲鱼 评论达人 LV.5 来自天朝的朋友 谷歌浏览器 91.0.4472.124 Windows 10

    学习到了,旧东西就算不要了也还要整理好 [笑哭]

    9楼 27天前
    0 0 回复
    • 明月登楼
      明月登楼 博主 未知 谷歌浏览器 83.0.4103.106  Redmi Note 8 Pro Build/RP1A.200720.011

      @闲鱼我的这个旧域名不是不要了,还是需要的,不过我不应该解析 A 记录到服务器,应该来个隐性 URL 跳转即可!

  2. 老杨SEM博客

    我之前有一次被百度蜘蛛把服务器爬宕机了。还是重启服务器,开启了 CDN 才解决的。当然也要限制访问次数。

    8楼 27天前
    0 0 回复
  3. 哈哈
    哈哈 来自天朝的朋友 谷歌浏览器 92.0.4515.131 Windows 7

    我也有一次类似的体验,那时候大概是 2017~2018 年,被 sogou 蜘蛛围殴了。 但我经验不足,好几天后才找到大概的原因。 但也不知道去哪里控制它,就百度了一些 nginx 上限制请求数的参数。比如说限制 XX UA 的每分钟多少次请求数,然后就恢复了。
    害~~~真是,惦记蜘蛛,让蜘蛛给揍了,哈哈。

    7楼 28天前
    0 0 回复
  4. 玉满斋

    不错,好文章,收藏了!

    6楼 29天前
    0 0 回复
  5. 运维学习笔记
    运维学习笔记 评论达人 LV.1 来自天朝的朋友 Edge浏览器 92.0.902.78 Windows 10

    不错,好文章!

    5楼 29天前
    0 0 回复
  6. 辰旭
    辰旭 来自天朝的朋友 谷歌浏览器 90.0.4430.210  MIX 3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.210 Mobile Safari/537.36

    去站长工具查一下看看蜘蛛 ip 是不是百度的,这玩意是可以伪装成百度蜘蛛 c 你

    4楼 2021-08-25 09:56
    0 0 回复
  7. 魏义齐个人博客

    你这个广告该检查一下了,全屏什么包养论坛,该屏蔽就屏蔽,直接禁发布商 id。

    地板 2021-08-25 09:52
    0 0 回复
  8. 青海人
    青海人 来自天朝的朋友 手机QQ 8.8.20.5865  YAL-AL00 Build/HUAWEIYAL-AL00

    咋感觉还是知更鸟好啊,这主题有啥好处?

    板凳 2021-08-25 07:49
    0 0 回复
  9. 青海人
    青海人 来自天朝的朋友 手机QQ 8.8.20.5865  YAL-AL00 Build/HUAWEIYAL-AL00

    换主题了吗,这是啥主题??

    沙发 2021-08-24 23:12
    0 0 回复
扫一扫二维码分享