常见反爬虫机制

滑动验证码验证机制

  • 常见反爬虫机制

    • 基础反爬机制
      • robots 协议
      • 验证码
      • 请求头验证 refer、UA
      • IP 封锁
      • 登陆认证、Cookie 认证
    • 复杂反爬机制
      • 动态 JS、动态变化的请求参数、动态数据的捕获
      • JS 加密
      • js 混淆
      • 错误数据
      • 延迟加载
      • 自定义字体
    • 模型反爬机制
      • 根据用户行为来分析建立模型。普通人的访问策略是深而窄,爬虫的访问是大而全。
  • 常见爬虫方法

  • 基础爬虫 - IP 代理池

    • UA 代理池
      • 随机 sleep 访问
    • 复杂爬虫
    • seleium 浏览器方式访问,可以破解绝大部分反爬机制。缺点是速度慢。

反爬虫机制参考资源:

代理 IP 池:http://qzmvc1.top/%E5%B8%B8%E8%A7%81%E5%8F%8D%E7%88%AC%E8%99%AB%E6%9C%BA%E5%88%B6%E4%B8%8E%E5%BA%94%E5%AF%B9%E6%96%B9%E6%B3%95.html

反爬虫机制破解