在对数据进行采集的时候,经常遇到有反爬能力的站点,比如大家喜闻乐爬的12306、大众点评等等。这时候就需要挂上代理来进行采集(大众点评的反爬是做的最🐂的……)。

IP的高匿、匿名、透明,是针对隐藏用户请求数据而言,例如:隐藏IP地址,隐藏踪迹等。使用什么级别的最合适呢?

{
	remote_addr: "139.59.17.117:8080",
	http_via: "null",
	client_ip: "null",
	http_x_forwarded_for: "null"
}

访问网络,一共有五种方式:无代理、透明、普通匿名、欺骗匿名、高匿(Elite)。五种方式及判断原理如下:

无代理

  • REMOTE_ADDR =您的真实IP
  • HTTP_VIA = 没数值或不显示
  • HTTP_X_FORWARDED_FOR = 没数值或不显示

透明代理

  • REMOTE_ADDR =最后一个代理服务器IP
  • HTTP_VIA = 代理服务器IP
  • HTTP_X_FORWARDED_FOR =您的真实IP,经过多个代理服务器时,这个值类似:123.57.78.101, 120.24.177.48, 47.88.76.11

普通匿名

  • REMOTE_ADDR =最后一个代理服务器IP
  • HTTP_VIA = 代理服务器IP
  • HTTP_X_FORWARDED_FOR =代理服务器IP,经过多个代理服务器时,这个值类似:123.57.78.101, 120.24.177.48, 47.88.76.11

欺骗匿名

  • REMOTE_ADDR =最后一个代理服务器IP
  • HTTP_VIA = 代理服务器IP
  • HTTP_X_FORWARDED_FOR =随机的IP,经过多个代理服务器时,这个值类似:123.57.78.101, 120.24.177.48, 47.88.76.11

高匿(Elite)

  • REMOTE_ADDR =代理服务器IP
  • HTTP_VIA = 没数值或不显示
  • HTTP_X_FORWARDED_FOR =没数值或不显示