B站专栏内页数据如何抓取,Web Scraper 学习在进一步,无编码学爬虫之五
B站专栏内页数据如何抓取,Web Scraper 学习在进一步,无编码学爬虫之五
⏰ 剪存时间:2022-06-17 09:59:35 (UTC+8)
✂️ 本文档由 飞书剪存 一键生成
今天是持续写作的第 20 / 100 天。
如果你有想要交流的想法、技术,欢迎在评论区留言。
平时在编写爬虫的时候,经常碰到需要抓取内页数据的场景,对于 Web Scraper 来说,通过简单的配置也可以实现对内页数据的抓取。
此系列教程涉及图片比较多,学习的时候大量的依赖实操,所以在后续本系列内容将转换为视频载体提供给大家
缓解一下视疲劳
目标网站分析
今天要抓取的页面是哔哩哔哩专栏,目标是各文章里面的图片地址。参考网址为:https://www.bilibili.com/read/home
我们需要获取到的就是每篇文章的标题,作者,以及里面的图片。
创建 sitemap 与选择器
因为我们爬取的是列表页,但是核心的数据在内页,这种情况下需要获得标题点击之后的页面,提前获得标题链接。具体设置如下:
selector 的 Type 选择 Link。