反爬策略
1.通过UA限制或者其他头信息限制
解决方案:构建用户代理池,或其他头信息(爬虫糗事百科)
2.通过访问者IP限制
解决方案:构建IP代理池
3.通过验证码限制
解决方案:手工打码、验证码接口自动识别或者通过机器学习自动识别
4.通过数据的异步加载限制
解决方案:抓包分析或者使用PhantomJS(如淘宝爬虫)
5.通过Cookie限制
解决方案:进行Cookie处理(爬知乎)
6.通过JS限制(如请求的数据通过JS随机生成等)
解决方案:分析JS解密或者使用PhantomJS(爬裁判文书网、腾讯动漫)
评论前必须登录!
注册