前情提要
上文采集b站动态视频数据一文发布后,有读者反馈到一个需求。
论文需要数据支撑,需要采集b站视频评论内容。
工具选择
小白完成这个需求,依旧可以使用八爪鱼采集器来做。
计划步骤
- 先找定位数据。浏览器打开一个需要采集的视频。
- 滚轮下拉页面查看。页面是否通用,有没有特殊的内容。(防止出现特殊情况,导致无法定位采集的数据。)该采集场景没有特殊情况。
- 直接新建一个任务。打开八爪鱼采集器,新建一个自定义任务。
- 复制刚刚打开的网址。将需要采集的视频链接粘贴进去。
注意,新建的任务,采集器里浏览器cookie是空的,所以采集器里浏览器应该是游客状态。
如果想采集视频页评论需要登录状态,必须先登录一下账号,否则无法查看更多评论。
因为b站在视频页这里做了限制,游客身份无法获取数据。解决办法很简单,就是账号登录一下就可以了。
- 登录完,我们可以将页面下拉到评论区。可以正常展示评论数据。
- 接下来,我们先用八爪鱼采集器自带的自动识别网页。这个是自带的相对智能的一键采集功能。新手可以快速上手使用。
注意:先找一个评论数保证在100个以内的视频进行采集规则设置。
如果评论数过多,这个自动识别网页的流程会花很长时间才能跑完。
一旦点击自动识别网页,点击取消,它的取消响应也不是那么及时,难免心里会有负担。避免内耗,我们还是先找一个评论数少的视频做配置测试哈。
实操步骤
我随便找了一个有几十个评论数的视频,进行操作。
直接复制网址到采集器中新建的自定义任务中。
直接点击保存设置
置入眼帘的这个界面,浏览器中是游客状态。
可以看到这里的头像框是蓝底白字的登录。
我们先点击这里登录进行登录操作。否则无法查看所有评论数据。
登录后,可以查看所有评论内容。
直接点击自动识别网页
工具会自动滚动页面识别页面中的数据。
这里比较自动化,但是不是很智能,因为会出错。
它会自以为是的将一些数据进行命名。并且会出错。比如这里圈中的几个字段就是无效的。
接下来就需要对字段进行修改,不需要的数据进行删除。剩下下面这三个字段的数据。
然后点击生成采集设置。
就会得到一个基础的采集流程。这个流程对于现在这个需求其实大差不差已经完成,就是还需要在细节上进行处理。
可以看见右侧出现了一个采集流程图。
这个采集流程图是刚刚工具自动识别后,我对采集的数据进行筛选之后形成的采集规则。
全程无需自己直接对这个流程图进行操作。
接下来就是细节优化了。
比如在添加一个评论时间。
先在操作页面,点击 1. 圈中的 时间 ,然后点击 2. 圈中的 选中全部
然后点击 采集以下元素文本
数据预览 中就多了个 时间 字段
最后我们需要设置一个非常关键的配置,然后就要大功告成了。
流程图的优化
点击选中右侧采集流程中 打开网页 这个流程块。
点击 高级设置。
选中 使用指定的Cookie,然后点击 获取当前页面的Cookie,弹窗跳出“获取Cookie成功”即可。
点击 滚动网页 这个流程块。
在 基础设置 中设置 循环次数 为100。
在 高级设置 中,
先选中 执行前等待,设置1或2秒,
然后选中 等待指定元素出现,
接着点击 1. 圈中的 箭头样图标,在浏览器中选择 2.圈中的 区域。
设置完成后,点击 应用。
这样就全部设置好了。
我们点击保存流程。点击采集试一试。
选择本地采集。
采集结果如上。
还有一点瑕疵。设置点赞数空的情况设置默认值为0。
完美。
再用这个任务来采集一个评论数比较多的视频测试一下。
没有什么问题。
结语感悟
需求是百变的,如果有需求,就应该把他记录下来,可以自己去寻找解决办法,去学习。
也可以请教高手,请高手出手,可以让你事半功倍。
谨记,靠人不如靠己。
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除