无名 发表于 2022-5-8 17:53:28

【Max】python爬虫爬取博客网站并保存至数据库

确定不进来嘛[滑稽]

主要是对常用的博客网站进行抓取

关键技术:

Requests + BeautifulSoup

url: https://blog.csdn.net/diandianxiyu_geek/article/details/83657231

正则表达式匹配url,存储到mysql数据库,总共三张数据库表:csdnblogs,visited,url_queue,后两个表主要用于避免重复的url
http://cdn.u1.huluxia.com/g3/M03/1F/25/wKgBOV6PU16AM2SWAAAza6xRx9M138.jpghttp://cdn.u1.huluxia.com/g3/M03/1F/25/wKgBOV6PU16AHsH6AACMXDG1lwM684.jpghttp://cdn.u1.huluxia.com/g3/M03/1F/25/wKgBOV6PU1-AcnPaAABSM-zbugU923.jpghttp://cdn.u1.huluxia.com/g3/M02/1F/80/wKgBOV6PtZSAJWgpAAHloLryEnM142.jpg
页: [1]
查看完整版本: 【Max】python爬虫爬取博客网站并保存至数据库