无名 发表于 2022-5-8 17:52:35

【Max】Python 爬虫入门(2)—— IP代理使用

上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制。比如,IP、JS、验证码等。这节主要讲利用IP代理突破。

1.关于代理

  简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是404,所以要换个不会被墙的IP,比如国外的IP等。这个就是简单的代理。

  在爬虫中,有些网站可能为了防止爬虫或者DDOS等,会记录每个IP的访问次数,比如,有些网站允许一个IP在1s(或者别的)只能访问10次等,那么我们就需要访问一次换一个IP(具体什么策略,自己决定)。

  那么问题来了,这些代理从哪得到?对于公司来讲,买代理IP。但是对于个人的话,可能会有浪费。那么怎么办呢?网上有很多免费的代理IP网站,但是手动更改的话,很浪费时间,并且免费的IP有很多不可用。所以,我们可以用爬虫爬那么IP。用上一节的代码,完全可以做到

楼层更新教程
http://cdn.u1.huluxia.com/g3/M03/26/73/wKgBOV6R-hOAKk8dAAAza6xRx9M352.jpghttp://cdn.u1.huluxia.com/g3/M03/26/73/wKgBOV6R-hWAHiYjAACMXDG1lwM599.jpghttp://cdn.u1.huluxia.com/g3/M01/32/BE/wKgBOV6WYDeANRPIAAATlNam4zg888.jpg
页: [1]
查看完整版本: 【Max】Python 爬虫入门(2)—— IP代理使用