大数据热门事件文档介绍内容

admin 2576 24
大数据热门事件文档介绍内容

百度网盘课程

通用入口链接!10000G.课程都有!一起学习吧!

立即点击↓ 获取课程!

热门词被提取出来,但一个词对于事件或话题的表达能力是有限的。这里从热门词汇入手,进一步提炼题目。

这里的话题抽取工作也分为两步。第一步,找出一些候选话题短语;第二步是从候选短语中找到一个含有更重要单词的短语作为输出主题。

候选短语抽取

候选短语的提取主要基于信息熵理论,使用以下特征。

1.内部聚合度为——互信息

这要从信息熵入手。信息熵用来衡量随机变量的期望值和变量的信息

熵越大,可能状态越多,不确定性越大,即信息量越大。

互信息可以解释两个随机变量之间的关系。定义如下:

通过转换上述公式,您可以得到:

表示y的不确定性;表示在已知x的情况下,y的不确定性,变成x,y的条件熵。可以知道,y的不确定性由于x的引入而降低,越大,y的不确定性就越小,也就是y很可能出现,也就是说x和y的关系越近。反之亦然。

在实际应用中,短语的内部聚合度就是词与词之间的内部聚合度。对于一个短语,我们选择一个最能降低不确定性的词组合来说明短语的内部聚合度。

2.上下文的丰富度大约是33,354个信息熵

刚才说的信息熵,显示的是信息量。那么如果一个短语的左右信息熵比较大,那么它就是一个词

群体周围可能出现的情况越多,左右搭配越丰富;意思是这个短语在不大数据热门事件文档介绍内容同语境下能讨论的东西越多,就越有可能独立解释一个事件或话题。

3.——是否常见,可以通过短语出现的频率来直观衡量。

精细话题筛选

对于某个热门词,在选择一批候选短语后,每个短语包含不同的词,包含不同的信息量。比如3月9日的热门词“巴黎”,我们抽取的候选短语有“巴黎球迷”、“巴黎球员”、“巴黎淘汰”、“巴黎心疼”、“巴塞罗那逆转巴黎”、“法国巴黎”、“巴黎时装周”。但在“巴萨球员”、“巴黎球迷”、“淘汰巴黎”、“心疼巴黎”、“法国巴黎”等短语中,“球员”、“球迷”、“淘汰”、“心疼”等词语往往出现在很多其他语境中,方向性不明确;“法国巴黎”的信息量甚至只有一个地方。而《巴塞罗那逆转巴黎》《巴黎时装周》也包含了更具体的信息,比如——足球比赛、球队、结果、地点或时装秀等。事件的方向更加清晰。在这里,我们需要过滤候选主题短语。

筛选的主要依据或思路其实和机制是一样的,关键是找出重要的词。比如与“巴黎”、“巴塞罗那”、“逆转”、“时装周”搭配时,包含的信息更多,意义也比“球迷”、“球员”、“心疼”、“法国”更大。可以认为“巴萨”、“逆转”、“时装周”这几个词在其他不相关的语料库中并不经常出现,而“球迷”、“球员”、“心疼”、“法国”这几个词却经常出现在不同的语料库中,信息不清晰。所以在我们的问题中,可以由TF-IDF来决定。

具体来说就是衡量一个短语中每个词的特异性。我们有理由相信,“巴塞罗那”、“反转”、“时装周”这些词出现在包含“巴黎”的相关语料库中的概率很大。热门词候选短语s的事件或话题表征能力得分可通过以下公式获得:

其中n是候选短语中的单词数,即候选短语中包含的第I个单词,并且(W)表示包含单词W的相关语料库.

另一方面,我们还需要考虑短语的出现频率。短语出现的次数越多,事件就越重要。

综上所述,我们通过候选短语的事件或话题表达能力得分和出现频率,仔细筛选出热门词汇的相关话题。

来源:

腾讯QQ大数据

中国种业大数据平台APP 新浪大数据平台

{ ' ' ' : { ' ' :[{ ' ' :1 ',' :1}],' :[{'':7 ',' :7}]},' card':[{'des': '阿里云实时计算(),基于开源的,优化后成熟稳定的企业版本,提供批流统一、完全托管、高性能的实时智能计算平台,' link 1 ' : ' https://www .阿里云。' com/product/bigdata/product/sc ',' link ' : ' https://www .阿里云。' com/product/bigdata/product/sc ',' icon ' : ' https://img。alicdn。com/TFS/tb1 yy8 CD4 D1 GK 0 jszfyxxciovxa-200-200。png ',' btn2 ' : '产品文档,' tip': '阿里云实时计算推出独享模式,专属定制的计算大脑,2折试用,

观看发布会最新产品和实时动态重磅发布,立即查看,' btn1': '立即开通,' link 2 ' : ' https://帮助。阿里云。请访问www . analog.com/product/45029。html ',' title': '实时计算}],' search':[{'txt': '申请免费试用,' link ' : ' https://帮助。阿里云。com/document _ detail/72329。html?spm'},{'txt': '管理控制台,' link ' : ' https://流。控制台。阿里云。com/zh/dark/' },{'txt': '产品文档介绍,' link ' : ' https://帮助。阿里云。com/document _ detail/62438。html?spm'},{'txt': '独享模式价格计算器,' link ' : ' https://流。控制台。阿里云。com/zh/dark/#/profile/calculator ' },{'txt': '独享模式2折试用,' link ' : ' https://推广。阿里云。com/ntms/act/RC。html ' },{'txt': '技术解读,' link ' : ' https://yq。阿里云。com/articles/669177 ' },{'txt': '产品动态,' link ' : ' https://www .阿里云。com/product/new?source _ type=out _ sousuo _ feature _ 0716 ' }],' count info ' : { ' search ' : { ' length _ PC ' :0 ',' length':0 ',' card':{'length_pc':0 ',' length ' :0 } },' simplifieddi display ' 3: ' New edition ',' New Card ' 33:[{ ' Ificon ' 3:实时计算,' des': '阿里云实时计算(AlibabaCloudRealtimeCompute),基于开源的ApacheFlink,优化后成熟稳定的企业版本,提供批流统一、完全托管、高性能的实时智能计算平台,' btn1': '立即开通,' link 1 ' : ' https://www .阿里云。' com/product/big data/product/sc ',' btn3': '产品文档,' link 3 ' : ' https://帮助。阿里云。请访问www . analog.com/product/45029。html ',' btn2': '产品控制台,' link 2 ' : ' https://real-compute。控制台。阿里云。com/#/dashboard ',' InfoGrouP ' :[{ ' InfoName ' : '精选活动,' info content ' : { ' First content name ' : '独享模式价格,'第一个内容链接' : ' https://流。控制台。阿里云。' com/zh/dark/#/profile/calculator ',' lastContentName':'Flink全托管限时优惠,' LastContentLink ' : ' https://实时计算。控制台。阿里云。com/?spm=5176.15088477 .* * * .1.3 c 2144 e7v 0 gfld #/sell/server less/ASI/default ' } },{'infoName': '产品入门,' info content ' : { ' First content name ' : '快速入门指导,'第一个内容链接' : ' https://帮助。阿里云。com/document _ detail/70009。html?SPM=a2c 4g。11174283 .2 .5 .300273d 5438v 4c ' } },{'infoName': '最佳实践,' info content ' : { ' First content name ' : '构建实时用户画像系统,‘第一内容链接’:‘https://开发者。阿里云。com/article/740454?SPM=5176.15088477。j _ * * * *。2.3 c 2144 e7v 0 gfld ',' lastConten

tName":"在线教育实时直播互动","lastContentLink":"https://developer.aliyun.com/article/770784?spm=5176.15088477.J_****.4.3c2144e7v0gfld"}},{"infoName":"最新动态","infoContent":{"firstContentName":"产品最新动态","firstContentLink":"https://www.aliyun.com/product/new?category=19&product=81"}}],"contentLink":"https://www.aliyun.com/product/bigdata/sc"}]}

{"$env":{"JSON":{}},"$page":{"env":"production"},"$context":{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":7,"count":7}]},"card":[{"des":"阿里云实时计算(AlibabaCloudRealtimeCompute),基于开源的ApacheFlink,优化后成熟稳定的企业版本,提供批流统一、完全托管、高性能的实时智能计算平台。","link1":"https://www.aliyun.com/product/bigdata/product/sc","link":"https://www.aliyun.com/product/bigdata/product/sc","icon":"https://img.alicdn.com/tfs/TB1yy8cD4D1gK0jSZFyXXciOVXa-200-200.png","btn2":"产品文档","tip":"阿里云实时计算推出独享模式,专属定制的计算大脑,2折试用,

观看发布会最新产品和实时动态重磅发布,立即查看","btn1":"立即开通","link2":"https://help.aliyun.com/product/45029.html","title":"实时计算"}],"search":[{"txt":"申请免费试用","link":"https://help.aliyun.com/document_detail/72329.html?spm"},{"txt":"管理控制台","link":"https://stream.console.aliyun.com/zh/dark/"},{"txt":"产品文档介绍","link":"https://help.aliyun.com/document_detail/62438.html?spm"},{"txt":"独享模式价格计算器","link":"https://stream.console.aliyun.com/zh/dark/#/profile/calculator"},{"txt":"独享模式2折试用","link":"https://promotion.aliyun.com/ntms/act/rc.html"},{"txt":"技术解读","link":"https://yq.aliyun.com/articles/669177"},{"txt":"产品动态","link":"https://www.aliyun.com/product/new?source_type=out_sousuo_feature_0716"}],"countinfo":{"search":{"length_pc":0,"length":0},"card":{"length_pc":0,"length":0}},"simplifiedDisplay":"newEdition","newCard":[{"ifIcon":"icon","icon":"sc","link":"https://img.alicdn.com/tfs/TB1XY8hGYr1gK0jSZFDXXb9yVXa-1740-328.png","title":"实时计算","des":"阿里云实时计算(AlibabaCloudRealtimeCompute),基于开源的ApacheFlink,优化后成熟稳定的企业版本,提供批流统一、完全托管、高性能的实时智能计算平台。","btn1":"立即开通","link1":"https://www.aliyun.com/product/bigdata/product/sc","btn3":"产品文档","link3":"https://help.aliyun.com/product/45029.html","btn2":"产品控制台","link2":"https://realtime-compute.console.aliyun.com/#/dashboard","infoGroup":[{"infoName":"精选活动","infoContent":{"firstContentName":"独享模式价格","firstContentLink":"https://stream.console.aliyun.com/zh/dark/#/profile/calculator","lastContentName":"Flink全托管限时优惠","lastContentLink":"https://realtime-compute.console.aliyun.com/?spm=5176.15088477.****.1.3c2144e7v0gfld#/sell/serverless/asi/default"}},{"infoName":"产品入门","infoContent":{"firstContentName":"快速入门指导","firstContentLink":"https://help.aliyun.com/document_detail/70009.html?spm=a2c4g.11174283.2.5.300273d5438V4C"}},{"infoName":"最佳实践","infoContent":{"firstContentName":"构建实时用户画像系统","firstContentLink":"https://developer.aliyun.com/article/740454?spm=5176.15088477.J_****.2.3c2144e7v0gfld","lastContentName":"在线教育实时直播互动","lastContentLink":"https://developer.aliyun.com/article/770784?spm=5176.15088477.J_****.4.3c2144e7v0gfld"}},{"infoName":"最新动态","infoContent":{"firstContentName":"产品最新动态","firstContentLink":"https://www.aliyun.com/product/new?category=19&product=81"}}],"contentLink":"https://www.aliyun.com/product/bigdata/sc"}]}}

相关阅读

  • 大数据应用案例 大数据技术有哪些
  • 大数据和数据挖掘的关系 安全大数据热门事件文档介绍内容大数据分析
  • 大数据 隐私 大数据经典事件图片
  • 发生不良事件原因分析 安全大数据分析
  • 中国种业大数据平台APP 新浪大数据平台
  • 2019年大数据放假时间 大数据放假几天
  • 搭建人才培养平台 不断加强高层次人才建设
  • 田佳良事件 舍恩事件
  • 大数据热门事件文档介绍内容
  • 版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除

    本文地址:http://0561fc.cn/5317.html

    标签: #大数据热门事件文档介绍内容