Spider的网站抓取次数突然增加,经常给网站带来麻烦。他们一直在寻找想要将Baiduspider IP列入白名单的平台,但实际上BaiduSpider
IP随时都会更改,因此我不敢发布它,因为担心网站管理员设置不会及时影响抓取效果。百度如何计算和分配爬网流量?网站抓取流量激增的原因是什么?
一般而言,Baiduspider会根据网站大小,网站在历史记录中每天生成的新链接的数量,已爬网页面的综合质量得分等来综合计算爬网流量,同时还要考虑网站站长在搜寻频率工具,网站可以承受的最大搜寻值。
从到目前为止跟踪到的爬网流量突然增加的情况来看,其原因可以分为以下几种:
1,Baiduspider发现网站上有很多JS代码,从而调用了大量资源来解析和捕获JS代码
2,百度其他部门的蜘蛛(例如业务,图片等)正在爬行,但是流量控制不好,对不起
3,已经被抓取的链接,得分不够好,并且垃圾太多,导致蜘蛛重新抓取
4,网站遭到攻击,有人模仿了百度爬虫(建议阅读:“如何正确识别百度蜘蛛”)
如果网站管理员已排除自己的问题或伪造问题,并确认BaiduSpider的抓取流量过大,则可以通过反馈中心提供反馈。请记住提供爬网日志的详细屏幕截图。
作者:SEO文章标题:百度蜘蛛本文解决了流量激增的原因:复制链接