Wiki

B站专栏内页数据如何抓取，Web Scraper 学习在进一步，无编码学爬虫之五
B站专栏内页数据如何抓取，Web Scraper 学习在进一步，无编码学爬虫之五​
🔗 原文链接：https://dream.blog.csdn.net/article...​
⏰ 剪存时间：2022-06-17 09:59:35 (UTC+8)​
✂️ 本文档由 飞书剪存 一键生成​
今天是持续写作的第 20 / 100 天。​
 如果你有想要交流的想法、技术，欢迎在评论区留言。​
 ​
平时在编写爬虫的时候，经常碰到需要抓取内页数据的场景，对于 Web Scraper 来说，通过简单的配置也可以实现对内页数据的抓取。​
​
此系列教程涉及图片比较多，学习的时候大量的依赖实操，所以在后续本系列内容将转换为视频载体提供给大家​
​
​
​
​
​
 缓解一下视疲劳 ​
目标网站分析​
今天要抓取的页面是哔哩哔哩专栏，目标是各文章里面的图片地址。参考网址为：https://www.bilibili.com/read/home。​
我们需要获取到的就是每篇文章的标题，作者，以及里面的图片。​
​
​
​
​
​
创建 sitemap 与选择器​
因为我们爬取的是列表页，但是核心的数据在内页，这种情况下需要获得标题点击之后的页面，提前获得标题链接。具体设置如下：​
 selector 的 Type 选择 Link。​