无名 发表于 2022-5-8 17:31:53

【冷漠】Python学习心得(三):fake_useragent


大家好,这里稚悠,觉得好的话就点个关注吧[玫瑰]http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxVuAbidDAABX2BkUhwE405.jpg
为了爬虫需要,经常要构造头部代理,而python的fake_useragent模块提供了这个功能,不需要每次都自己写一堆代理的代码了。

首先,fake_useragent在python3.5的版本上安装是有问题的,我是升级到3.7的版本之后再回去做了橡皮擦的课程练习,在橡皮擦老师的课程代码里面直接使用无参函数构造对象http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxVyART89AAA7DN7k7LQ580.png
实测下来会报错,搜索了一遍发现一般要禁用cache,也就是用下面的带参构造来创建对象http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxVyASWG8AAAmISmDARA632.png
但是换了一个项目后,发现构造伪代理又出错了http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxV2AIoFvAAByQXahBnY211.png
这次决定彻底找到问题
百度过各种带参的构造方法http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxV6ALPxkAADb8QkfpZ0924.png
下载一个代理数据集合 https://fake-useragent.herokuapp.com/browsers/0.1.11,并将数据包放在项目目录下,使用该数据包来构造对象http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxWGAD3kqAAMTwFCfV_k810.png
使用的时候将该库所在的路径包含进去构造ua对象即可http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxWKAFy7yAABTZqub5DE259.png
当前如果禁用服务器cache的构造可以爬当前的网站,就没有必要再这么做了。http://cdn.u1.huluxia.com/g4/M02/AB/DC/rBAAdl8JxWKANaytAAAIAHXQwjY181.jpg
页: [1]
查看完整版本: 【冷漠】Python学习心得(三):fake_useragent