采集b站视频评论

发布一下 2022年12月21日 19:19 0 0

前情提要

上文采集b站动态视频数据一文发布后，有读者反馈到一个需求。

论文需要数据支撑，需要采集b站视频评论内容。

工具选择

小白完成这个需求，依旧可以使用八爪鱼采集器来做。

计划步骤

先找定位数据。浏览器打开一个需要采集的视频。
滚轮下拉页面查看。页面是否通用，有没有特殊的内容。（防止出现特殊情况，导致无法定位采集的数据。）该采集场景没有特殊情况。
直接新建一个任务。打开八爪鱼采集器，新建一个自定义任务。
复制刚刚打开的网址。将需要采集的视频链接粘贴进去。

注意，新建的任务，采集器里浏览器cookie是空的，所以采集器里浏览器应该是游客状态。

如果想采集视频页评论需要登录状态，必须先登录一下账号，否则无法查看更多评论。

因为b站在视频页这里做了限制，游客身份无法获取数据。解决办法很简单，就是账号登录一下就可以了。

登录完，我们可以将页面下拉到评论区。可以正常展示评论数据。
接下来，我们先用八爪鱼采集器自带的自动识别网页。这个是自带的相对智能的一键采集功能。新手可以快速上手使用。

注意：先找一个评论数保证在100个以内的视频进行采集规则设置。

如果评论数过多，这个自动识别网页的流程会花很长时间才能跑完。

一旦点击自动识别网页，点击取消，它的取消响应也不是那么及时，难免心里会有负担。避免内耗，我们还是先找一个评论数少的视频做配置测试哈。

实操步骤

我随便找了一个有几十个评论数的视频，进行操作。

直接复制网址到采集器中新建的自定义任务中。

采集b站视频评论

直接点击保存设置

置入眼帘的这个界面，浏览器中是游客状态。

采集b站视频评论

可以看到这里的头像框是蓝底白字的登录。

我们先点击这里登录进行登录操作。否则无法查看所有评论数据。

采集b站视频评论

登录后，可以查看所有评论内容。

采集b站视频评论

直接点击自动识别网页

采集b站视频评论

工具会自动滚动页面识别页面中的数据。

采集b站视频评论

这里比较自动化，但是不是很智能，因为会出错。

采集b站视频评论

它会自以为是的将一些数据进行命名。并且会出错。比如这里圈中的几个字段就是无效的。

采集b站视频评论

接下来就需要对字段进行修改，不需要的数据进行删除。剩下下面这三个字段的数据。

采集b站视频评论

然后点击生成采集设置。

采集b站视频评论

就会得到一个基础的采集流程。这个流程对于现在这个需求其实大差不差已经完成，就是还需要在细节上进行处理。

采集b站视频评论

可以看见右侧出现了一个采集流程图。

采集b站视频评论

这个采集流程图是刚刚工具自动识别后，我对采集的数据进行筛选之后形成的采集规则。

全程无需自己直接对这个流程图进行操作。

接下来就是细节优化了。

比如在添加一个评论时间。

先在操作页面，点击 1. 圈中的时间，然后点击 2. 圈中的选中全部

采集b站视频评论

然后点击采集以下元素文本

采集b站视频评论

数据预览 中就多了个时间字段

采集b站视频评论

最后我们需要设置一个非常关键的配置，然后就要大功告成了。

流程图的优化

点击选中右侧采集流程中打开网页这个流程块。

采集b站视频评论

点击 高级设置。

采集b站视频评论

选中 使用指定的Cookie，然后点击获取当前页面的Cookie，弹窗跳出“获取Cookie成功”即可。

点击滚动网页这个流程块。

采集b站视频评论

在 基础设置 中设置循环次数为100。

采集b站视频评论

在 高级设置 中，

先选中 执行前等待，设置1或2秒，

然后选中 等待指定元素出现，

接着点击 1. 圈中的箭头样图标，在浏览器中选择 2.圈中的区域。

采集b站视频评论

设置完成后，点击应用。

这样就全部设置好了。

我们点击保存流程。点击采集试一试。

采集b站视频评论

选择本地采集。

采集b站视频评论

采集结果如上。

还有一点瑕疵。设置点赞数空的情况设置默认值为0。

采集b站视频评论

完美。

再用这个任务来采集一个评论数比较多的视频测试一下。

采集b站视频评论

没有什么问题。

结语感悟

需求是百变的，如果有需求，就应该把他记录下来，可以自己去寻找解决办法，去学习。

也可以请教高手，请高手出手，可以让你事半功倍。

谨记，靠人不如靠己。

版权声明：内容来源于互联网和用户投稿如有侵权请联系删除

本文地址：http://0561fc.cn/195368.html

上一篇Windows使用小技巧，学会让你的操作更高级

下一篇快充你用对了吗？