解析每个热门事件

admin 2020年11月11日 05:42 3612 29

百度网盘课程

通用入口链接！10000G.课程都有！一起学习吧！

立即点击↓ 获取课程！

解析每个热门事件与解析

案例开头，先同步后台。有一个基于内容的小程序，你可以理解为今天小程序版本的标题。你要研究的是一旦进入小程序，默认刷新或者手动刷新对用户流失的影响。目前，用户需要在进入小程序后手动刷新。如果您在输入后将其更改为默认刷新，波动将会减轻。

这个命题你会怎么回答？可以直接分析拆卸目标并定义指标。不好意思，不过我先做的是现在的流程图，这样我们可以更清楚的了解发生了什么。

先说目的。目的是什么？从题目中可以学到的关键行为是刷新和丢失两个关键节点。连接这两个节点，我们发现中间部分是刷新后的反馈，即有内容刷新和无内容刷新：

根据历史数据，用户可能的后续行为包括退出行为、其他产品功能行为、浏览行为和刷新行为：

根据现状画一个流程图：

小贴士，产品经理画流程图是个好习惯，有助于他们和其他人理解你要解析每个热门事件做什么，指出问题。

产品经理的工作简单而不简单。简单在于思考和决策。简单就在于怎么想清楚问题，会刷下来一大批人。

其中，退出行为分为有效退出、无效退出和无退出行为。有效退出可以定义一个有效退出时间，比如退出时间-进入时间大于10秒。

有人说过，退出的时候不是只有直接退出吗？这里需要特别提一下。互动的都已经分开了，只剩下出口。怎么分，因为有可能是用户在认真看这个屏幕的内容，上一次已经看了一个屏幕，这次新的没兴趣，或者是用户上一次不小心碰了一下，这次重新进入仔细看了，还是没兴趣，然后退出，无效退出是相反的。

在对上述情况进行详尽的组合后，情况可以在下表中看到：

12种，不多。接下来要做的是发挥产品经理的另一个特点，对每个用户的行为进行原因分析和标注，筛选出你关心的和你比较的，比如：

记得最初的题目，手动刷新到默认刷新对用户的影响。我们需要从上面提到的那堆东西中去掉你想要的东西，去掉无用的信息进行分析。

想清楚自己想要什么，定义自己想要什么，是最难的。从交互层面来说，分为刷新和从不刷新。可以理解为，没有刷新的用户被换入系统帮你刷新，而自己刷新的用户作为对照组，结果是无效退出。一般来说，没有刷新就没有新内容。如果有刷新，统一一下，最后估计影响范围。一般来说，根据这个业务的情况，影响范围会包括上线时间、浏览文章数、重新发帖数，主要考虑的是重新发帖。

一般情况下，如果能做到这一点，基本就能结束了。纳尼，结束了吗？铺垫了这么多。不，很远。如果按照5W2H，谁，在哪里，什么，什么时候，为什么来划分，以上只包括做什么，还有一堆事情没做。

如何先划分“谁”。广义的定义，我们可以区分新用户和老用户，粗略的定义新用户是没有进入过小程序的用户。如果当天生成规则，则判定为当天活动，无论当天回访多少次，也判定为当天活动；老用户是生成用户，也可以通过主动行为分层。一般来说可以分为第二天活跃、7号活跃、30号活跃、90号活跃、一年内活跃。因为产品上线不到一年，所以选择以前的。

根据历史数据，这个业务可能对性别敏感，对省市不敏感。所以因为性别因素，省市暂时不考虑(省市以后不考虑你就知道救了多少条命)。

好了，根据上面的组合，用户层次结构可以列在下表中：

这只是硬用户分层。考虑问题的时候，要加一个业务状态机。什么是状态机？也就是你认为与这个实验有关的，你的用户目前经历过的哪些商业行为或者关键功能，应该包括在内。如果你是先锋，就要想好所有的变量，然后建几个仓库，这样才能经得起后续多维组合分析的折腾。

这个分析实验不多说，只说两个最重要的业务状态机，一个是订阅与否，一个是浏览与否。有些同学可能已经猜到我接下来要做什么了。是的，表格显示为：

有没有人说有必要这么麻烦？可惜产品经理的价值都在这里。如果前期没有困扰，研发后期应该怎么做？skr~~这是只有四种状态合并后的用户分层列表。有40种情况，每种情况都应该对应后续的行为。进行访问分析，因为每一组人在未来都可以做任何动作，所以这个分析是多维度的。你把它列清楚之后，就可以知道你真正想分析的数据是什么了。

放心，要想完成分析工作，还有流程状态。当用户进入小程序时，有五个行为，加上以上四个行为(浏览行为、刷新行为、其他功能行为、退出行为)，还有一个滚动行为：

而且这个和上面的用户状态不一样，因为是一个过程，所以五个过程可以按照前后顺序变化，比如滚动前刷新不浏览，或者滚动前浏览刷新。而每一种行为又可以细分为三种：一般滚动行为，滚动到最后浏览，不滚动。想清楚之后，接下来要做什么，是的，画一张表，显然会非常巨大：

我没有改变过程，只是用初始状态表示出来。如果真的进行无差别分析，那么经过严格的可行性分析，所有的状态都会输出。以这个业务为例，极限状态是可以的。

但是很容易看到有的是可以合并的，比如dz-72，不管怎么换都是一样的。这个表格，对于数据可视化工具来说，就是三图，这个产品：

解析每个热门事件与解析

我们为什么要这么麻烦？用户动机，没错，上面的安排叫做过程动机。我们分析的时候可以从结果动机入手，需要把结果动机相近的流程放在一个组里。以上述为例，结果动机是有效退出或无效退出。

比如数字dz1-3可能是正常用户行为，dz4-6可能是没有刷感兴趣文章的用户(怎么办？优化算法！)，dz7-9好像和我们的测试有关系。如果将这些用户改为刷新行为(dz1-3)，可以提高多少次重新发帖、阅读和在线时间(KPI)？这是精细分析。不同的序列出于不同的动机，比如一上来就刷新，这似乎是我们优化后的预期情况？跟哪个原团比？优化后能提高多少KPI指标？有可能做预测吗？

这样的对比和对比，结果严谨可控，可以用来指导你的决策。最初的控制组1和2也能产生效果，但你始终处于小学生的水平，不能成为初中生或高中生。

记住，这些工作都是在训练产品经理的另一个核心竞争力的技能，即对用户动机的判断，包括心理层面和产品层面。只有理解了用户，才能做好。所以回头想想，你觉得最初的流程图还叫流程图吗？你的需求还叫需求吗(我想分析一下默认刷新和手动刷新的损耗关系，只埋手动刷新的次数)？不是找打架？

不过话说回来，当它真正用于数据分析的时候，上面那些吓人的表格一定不是这样整理分析的，所以你自己分析的时候就会崩溃，对R&D的需求会杀了你。需要的是产品经理的另一种变态能力。掌握——业务抽象能力。我一般会将以下表格抽象出来，直接交给研发，一目了然，也可以查差距，一起补差距：

R&D只需要知道维度。交叉分析是你应该提到或者数据分析师应该做的事情。不要觉得千百种可能性都很可怕。几位分析师可以轻松处理这些问题。如果是针对用户属性和敏感业务，用户必须一个个分层，然后带入后续流程进行分析，也就是编号为ny的表。用户对每个属性的后续操作的转化率可能不同：

你可能已经制定了一个适合大多数用户的策略。正数多，负数少。大数似乎是正数：

但是，这不是做成长型产品的态度。市场增长意味着尽一切可能通过你的牙齿抓住东西。

拆解每个策略对用户的正面和负面影响，保留新策略的正面用户组，回滚其他用户组，确保不减少：

如果继续这样做，你的产品会越来越复杂，但是你真的可以得到真正的认知产品，分析结论，用户成长。

这些数据维度和指标不仅代表了你的产品实力，也代表了你的需求水平。在规划你的需求时，你应该认为后续的R&D在进行的时候，可以更好的估计出项目的难度和工期，否则，你要么没有确定的修改，要么就是暗拖。

请明确要求，前提是你能明白自己想要什么。不要想当然。每个动作都涉及很多因素，要想清楚。另外，这个过程只限于做关键动作之前的拆卸，后续的影响分析更重要，也就是上面提到的回流、阅读、在线时间等。假设你采取了一个通过欺骗提高用户转化率的策略，但是整体效率在7天内下降了，还不错。如果时间线短，一定要想清楚对其他服务和功能的影响。如果严重影响充值功能，你能怎么办？一定要考虑后果。

上表只是举例，我就不拆解分析更详细了。有兴趣的合作伙伴可以继续做下去，对刚接触产品的同学应该有帮助。他们必须从同样的结果动机出发，找到同样的过程动机的控制组，了解用户。只有在修订前进行数据辅助分析，才能真正预测修订的合理性和需求的真实性。

得出结论之后，也要学会验证结论。我们可以使用交叉验证的方法，从侧面验证结论，使分析更加可靠和严谨。

第三，一些其他的词

以上列举了一个最近的案例，不是我自己的。都是基于个人兴趣。但是，数据分析不是万能的，有些误区呈现给大家：

1.选择的样本大小错误

忽略有效用户，包含无效用户。在上述情况下，如果将用户行为拆开，可以发现很多不同的特性和细节。同时，有时因为样本量的原因，样本太少会使结果不可预测，样本太多可能只关心少数用户的数据而忽略整体。有时需要制定相同的抽样规则，以减少分析结论的偏差。

2.因果关系误判

因果关系误判，你觉得评论的时候商品卖的多吗？在以上情况下，你能发现损失少是刷新的功劳吗？不一定，有时候不同的分母才是你得出错误结论的罪魁祸首。在分析数据时，应该通过寻找数据指标之间的相关性而不是因果关系来正确判断数据指标之间的逻辑关系。

3.被数据的表达技巧蒙蔽了双眼

在做数据分析的时候，需要警惕一些小计、最小区间、上下极值、主次轴等。不要被数据的视觉效果所蒙蔽。

4.过度依赖数据

不要太依赖数据，做一些没有价值的数据分析。很多牛逼的产品决策不是通过数据发现的，而是一个产品经理综合智慧的体现。

最后，没有重视数据分析的企业要重视。传统的老牌沃尔玛从数据分析中获得了巨大的宝藏，可以从以下三个方向解释一切：

从爬取微博中搜索的热门事件到数据分析处理全过程（一）

一、爬行对象及原因

我抓取的主要是医患冲突的微博，本来是想分析医患冲突的舆论。抓取的对象有用户名、文本、时间、转发号、赞号、评论号。爬行文本是一个可以用于情感分析或词频分析的云图。用户名可以用来统计官方报纸或者官方网站对此关注度最高的，可以做直方图。同时，转发、喜欢、评论的数量可以与时间匹配做定量分析或一定时间内的时间序列折线图。

二、爬虫步骤

1.请求页面

首先当然是进入我们亲爱的微博移动终端，不要问我为什么是移动终端，因为很简单，这真的是唯一一道菜。搜索关键字并右键单击查看元素。

点击右边的选项，选择其中的xhr，滑动页面的滚动条来加载新页面。这时，会出现一个表单并点击该表单。

接下来是我们最喜欢的填码时间。

？{，User-(；intelmacosx 10 _ 12 _ 3)apple WebKit/537.36(KHTML，like gecko)Chrome/58 . 0 . 3029 . 110 safari/537.36，X-Requested-with : xmlhttprequest，} get _ page (page) : #获取页面参数的请求是我们需要在QueryString中填写参数参数，如下图{ container id :100103 type1q toType:all，queryVal:医患纠纷，特征码：20000320，luicode 33601000011，lfid :106003 type 1，Title:医患纠纷} URL base _ URL URL encode(params)try : response requests . get(URL，header headers)ifresponse . status _ code 200: print(page)return连接错误：打印(错误，参数)

2.解析页面

获取页面是解析页面最麻烦的一步。因为ajax返回json格式，所以使用pyquery特别方便。这部分需要具体分析获取json结构。我的经验是使用。如果嵌套在字典中，则首先使用get()方法，如果内容在列表中，则使用for循环。最后可以发现，我们想要获取的内容，首先大致是这样的。

{data:

{ cards:

[{card_group:

[{ mblog : }

id:text…

}]}

主要内容在mblog。我花了很多时间来分析这个。这真的是一个城市惯例。我想回家，

def parse _ page(JSON): ifjs : items JSON . get(data)。get(cards)for iiniitem : foritemini . get(card _ group): item item . get(mblog)IFitemnone : continue Weibo { } Weibo[id]item . get(id)Weibo[text]pq(item . get(text)).text()微博[name]item.get(用户)。get(screen _ name)ifitem . get(LonText)！None:#我们要注意的是，长长度的微博文本和长长度的文本在文本中会显示不完整，要判断，要抓取。微博[龙腾]item.get(龙腾)。get(龙腾内容)else : Weibo[龙腾]none print(Weibo[name])print(Weibo[龙腾])Weibo[attributes]item . get(attributes _ count)Weibo[comments]item . get(comments _ count)Weibo[reposts]item . get(reposts _ count)Weibo[time]item . get(created _ at)yield Weibo

3.存储在数据库中

最后一步相对简单

如果_ _ name _ _ main _ _ : client mongoclient()# connect mongodbclient[Weibo _ 1]# create database collection db[Weibo _ 1]# create table def save _ to _ mongo(result): #进入数据库ifcollection。insert(result): print(savedtomongo)for ageinrange(21，200): # cycle page time . sleep(1)#设置睡眠时间以防止被密封JSON get _ page(page)result sparse _ page(JSON)for result results 3360 save _ to _ mongo(result)print(result[time])

最终效果存储在mongodb中

在下一期中，我们将简要介绍如何从mongodb中提取文件，以及在文件开始时数据清理工作是否令人兴奋

代码主要指崔的知乎专栏。https://zhuanlan.zhihu.com/p/33877731非常感激

解析每个热门事件

百度网盘课程

根据现状画一个流程图：

在对上述情况进行详尽的组合后，情况可以在下表中看到：

好了，根据上面的组合，用户层次结构可以列在下表中：

第三，一些其他的词

2.因果关系误判

4.过度依赖数据

从爬取微博中搜索的热门事件到数据分析处理全过程（一）

1.请求页面

接下来是我们最喜欢的填码时间。

{data:

[{ mblog : }

3.存储在数据库中

最终效果存储在mongodb中

相关阅读

盘点2017年食品安全热点事件权威解析

2018年旅游舆情汇总解析

2016网络热点舆情事件分析汇总

2019年最新重热点新闻事件整理汇总解读分析

从爬取微博中搜索的热门事件到数据分析处理全过程（一）

2019争议解析每个热门事件性社会热点事件作文素材分析及点评