无名商城论坛

搜索
查看: 284|回复: 0

[其他技术] 【Max】python爬虫爬取博客网站并保存至数据库

[复制链接]

1万

主题

1万

帖子

3万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
32464
发表于 2022-5-8 17:53:28 | 显示全部楼层 |阅读模式
确定不进来嘛[滑稽]

主要是对常用的博客网站进行抓取

关键技术:

Requests + BeautifulSoup

url:
本帖隐藏的内容需要【资源会员】才可浏览,您需要升级才可浏览,点击这里升级【资源会员】

正则表达式匹配url,存储到mysql数据库,总共三张数据库表:csdnblogs,visited,url_queue,后两个表主要用于避免重复的url
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表