如今,科技、数字和网络新闻已经成为公众关注的焦点。目前,互联网、科技和数字与我们的生活密切相关。我们应该为自己收取更多的费用,掌握更多的知识,以便掌握更多的信息,不断提高自己的个人能力。边肖今天整理了一篇关于互联网技术数字化方向的文章,希望大家喜欢。
视觉常识推理是人工智能领域的一个热门话题。《新一代人工智能发展规划》中,从处理单一数据到跨媒体认知、学习、推理的跨媒体智能也包含在五个智能方向中。
最近腾讯的微视视频理解团队荣登VCR任务榜首,是多模态理解领域最权威的排名之一。该团队提出的BLENDer(双峰编码器)模型超越了百度、谷歌、微软、脸书等研究机构的模型效应,成为单模型和多模型三大指标之首。值得注意的是,BLENDer仅凭借单一模型效果就超越了前一榜单上多模型的最佳结果,赋予机器更强的理解和认知能力,并被深度应用于短视频领域。
超越百度、谷歌等。腾讯微视AI团队高居VCR榜首
视觉常识推理(VCR)任务最初是由华盛顿大学的研究人员在2018年提出的。该任务旨在将图像与自然语言理解相结合,验证多模态模型的高阶认知和常识推理能力,使机器具备“看图说话”的能力。比如VCR可以从画面中人物的行为进一步推断动机、情绪等信息。VCR排行榜是多模态理解领域最权威的排名之一,也是图像理解和多模态领域水平最深、门槛最高的任务之一,吸引了微软、谷歌、脸书、百度、UCLA等国内外公司和研究机构的参与。
第一台单模BLENDer来自腾讯的微视视频理解团队,超越上届榜首百度团队的多模态预训练模型ERNI-ViL-large,成为新VCR榜单的霸主。
相关负责人表示,BLENDer模型已经应用到腾讯的微视产品中,赋予平台更强的认知能力,使得包括文本、音频、视频等媒体信息在内的短视频内容得到更好的分类和识别,对这些海量的跨媒体信息的理解和挖掘更加准确。比如腾讯微视用户创建视频时,平台可以识别内容并准确推荐合适的话题,也可以根据内容属性快速推荐给感兴趣的用户,从而增强所创建内容的曝光度。
腾讯微视视频理解团队提出的单模型BLENDer是基于最前沿的视觉语言Bert模型,将整个学习过程分为三个阶段,最终将三个问答的准确率一下子提高到81.6、86.4、70.8。只是BLENDer在单个模型上的表现已经超过了之前各行业公司和研究机构的多模型融合效果。
在BLENDer模型中,第一阶段以NLP中的Bert模型为起点,结合海量数据中提取的百万张图片和对应的描述文本作为BLENDer的输入进行多模态训练;第二阶段,在视觉常识推理数据集上学习电影中的场景和情节,使模型在新数据上获得更好的迁移能力;第三阶段,引入最终问答任务,让BLENDer利用已有的知识和常识来挖掘和推理人物与场景的关系,得到最终答案。
腾讯微视用短视频赋予人工智能技术力量
腾讯微视一直密切关注技术研发,腾讯微视视频理解团队长期深入多模态语义理解领域,不断进行技术突破和落地,将相关技术应用于海量图像、视频、文本等跨媒体信息的认知推理。
与此同时,腾讯的微视团队也在不断从业务上探索前沿领域,将人工智能技术应用到短视频生态系统中,贯穿于内容创作、内容审核、内容发布的方方面面。
在内容创作过程中,腾讯微视将3D人脸、人体、GAN等AI技术与AR技术相结合,辅助用户进行内容创作,使得创作过程更加便捷、有趣、包容;在视频审核过程中,腾讯微视通过图像检测、分类、多模态理解等AI技术准确识别视频内容,提高审核效率,让用户制作的内容尽快到达消费者手中。目前,腾讯微视内容处理效率已经达到。行业领先水平;在视频分发方面,腾讯微视利用AI技术,从非结构化的图像、音频、文本数据中提取标签、特征等结构化信息,支持分发,准确匹配用户。
未来,人工智能将拥有更加多样化和深入的交流学习能力,技术创新和精细化将进一步推动AI技术在短视频服务智能交互场景中的落地。
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除