科技、数字和网络新闻都成为公众关注的焦点。目前,互联网、科技和数字与我们的生活密切相关。我们应该为自己收取更多的费用,掌握更多的知识,以便掌握更多的信息,不断提高自己的个人能力。边肖今天整理了一篇关于互联网技术数字化方向的文章,希望大家喜欢。
10月31日至11月1日,LiveVideoStackCon2020音视频技术大会在北京隆重举行。本次会议以“多媒体开启新视野”为主题,聚焦于音频、视频和图像技术的最新探索和应用实践,涵盖教育、娱乐、医疗、安全、旅游、电子商务、社交活动、游戏、智能设备等行业。行业内数十位知名讲师与全国各地的音视频工程师、多媒体工程师、图像算法工程师、运维和物联网工程师分享技术创新和最佳实践。
这次会议中,与人工智能相关的话题非常热门,AI已经渗透到多媒体技术的方方面面。AI在内容制作、编解码、音视频预处理等方面都有一席之地甚至寄予厚望。网易云信高级音频算法工程师郝一亚博士应邀出席会议,在“音频技术:走近人耳极限”专题会场发表题为《RTC中AI音频算法的产品化》的主旨演讲,并在“5G、AI、新技术、新变化”圆桌论坛上分享AI在音视频领域应用的实践经验。
在主题分享中,郝一亚博士首先介绍了AI在音频处理方面日益强大的力量。随着AI在计算机视觉等领域的成功应用,CNN、RNN等深度学习网络迅速应用到音频领域,AI在音频降噪、场景分类、回声控制、盲源分离等方面发挥着越来越重要的作用。
虽然人工智能在音频领域的价值越来越明显,但在当前的算法中,尤其是实时音频中,人工智能并没有得到广泛的应用。针对AI在音频处理方面的挑战和局限性,郝一亚博士总结了三点。一个是计算复杂性。人工智能模型通常需要大量的计算,这给目前我们大多数终端设备的计算能力带来了很大的压力,并对实时控制的实时性提出了挑战。第二是概括能力。人工智能算法是基于有限的数据集进行训练的,其有限的泛化能力一直是个问题。RTC覆盖的业务场景很多,AI算法更难覆盖所有场景。第三是稳健性。RTC丰富的应用场景中有很多意想不到的情况,AI算法的鲁棒性也很高。
由于计算能力、数据和AI模型本身的限制,AI无法取代传统的信号处理方法,但音频AI在效果上的优势已经得到了证明。郝一亚博士指出,在RTC领域,要想充分发挥AI的优势,有效避免缺点,进行“模块化”处理是一种有效的途径。拆分端到端和长链接处理,找到合适的AI模块,让专业的“人”做专业的事。
以音频降噪中的AI算法为例,传统降噪算法包含很多模块,其中“噪声估计”模块适合深度学习训练,尤其是对于一些稳态噪声。在这里,该模块被训练为单独的噪声估计模型,而不是端到端地训练整个AI模型。通过模块化处理,实现了轻量化模型、简单的训练目标和更适合的DNN模型,从而充分发挥了AI的优势。
郝一亚博士认为,未来将有越来越多的AI技术融入RTC,一些新的爆发点可能是更先进的神经网络模型、更高效的GPU等。但是有一个关键点不会变,就是数据量大。目前,网易云信已经配备了全套工具和环境,从各种来源收集数据集,用于训练AI算法,并已应用于音频降噪和视频超评分场景。
自2015年10月以来,网易云信一直专注于即时通讯和音视频技术领域的前沿探索和应用实践,帮助100万企业开发者成功发送了1万亿条消息,日活动量超过3亿条,在百家争鸣的PaaS市场实现了稳步增长。近日,网易云信再次提升技术能力,全面升级的音视频通话2.0产品上线。AI等新兴技术已经融入到产品中,开始为客户服务。未来,网易云信将继续创新,在综合通信领域探索新的技术、产品和应用,与业界共创美好新时代。
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除