【Max】python爬虫爬取博客网站并保存至数据库
确定不进来嘛[滑稽]主要是对常用的博客网站进行抓取
关键技术:
Requests + BeautifulSoup
url: https://blog.csdn.net/diandianxiyu_geek/article/details/83657231
正则表达式匹配url,存储到mysql数据库,总共三张数据库表:csdnblogs,visited,url_queue,后两个表主要用于避免重复的url
http://cdn.u1.huluxia.com/g3/M03/1F/25/wKgBOV6PU16AM2SWAAAza6xRx9M138.jpghttp://cdn.u1.huluxia.com/g3/M03/1F/25/wKgBOV6PU16AHsH6AACMXDG1lwM684.jpghttp://cdn.u1.huluxia.com/g3/M03/1F/25/wKgBOV6PU1-AcnPaAABSM-zbugU923.jpghttp://cdn.u1.huluxia.com/g3/M02/1F/80/wKgBOV6PtZSAJWgpAAHloLryEnM142.jpg
页:
[1]