常见反爬虫机制
常见反爬虫机制
- 基础反爬机制
- robots 协议
- 验证码
- 请求头验证 refer、UA
- IP 封锁
- 登陆认证、Cookie 认证
- 复杂反爬机制
- 动态 JS、动态变化的请求参数、动态数据的捕获
- JS 加密
- js 混淆
- 错误数据
- 延迟加载
- 自定义字体
- 模型反爬机制
- 根据用户行为来分析建立模型。普通人的访问策略是深而窄,爬虫的访问是大而全。
- 基础反爬机制
常见爬虫方法
基础爬虫 - IP 代理池
- UA 代理池
- 随机 sleep 访问
- 复杂爬虫
- seleium 浏览器方式访问,可以破解绝大部分反爬机制。缺点是速度慢。
- UA 代理池
反爬虫机制参考资源:
- 常见反爬虫与应对措施 https://www.jianshu.com/p/4113736304ab
- 常见的反爬机制及处理方式 https://www.cnblogs.com/Summer-skr--blog/p/11678559.html
- https://www.cnblogs.com/angle6-liu/p/10451047.html
- https://cloud.tencent.com/developer/article/1032918
- https://segmentfault.com/a/1190000005840672
- https://blog.csdn.net/qq_38486203/article/details/87878189
- https://juejin.im/post/6844903969483931662
- https://www.geek-share.com/detail/2776078674.html
- https://www.cnblogs.com/zhaof/p/7326260.html
- https://www.cnblogs.com/wangxin37/p/6398745.html