本季度联发科以38%份额引领智能手机SoC市场，SoC到底是个啥？

发布一下 2022年10月29日 21:11 0 0

到了2022年的第三季度，国内的主流手机厂商都已经发布了今年的旗舰机型，在清一色的八淦一的完美衬托下，旗舰机型里搭载MTK的天玑9000可谓是消费者的福利（这是在没有麒麟的背景下）。

我们一起看看2022年国内品牌的销售数据，2022年4月，国内市场智能手机销量仅为1760万部，同比下滑21.6%，环比下滑12.2%，单月销量创下2020年疫情以来第二差的单月成绩，仅高于2020年2月的水平。

国内手机市场自今年2月开始，呈现下行颓势，同时在疫情的影响下，手机市场需求持续疲软，加上在芯片、形态、功能并没有显著进步或者革新的前提下，消费者换机意愿仍然较低。

从各手机品牌厂商角度来看，2022年4月，苹果逆势夺回销量冠军；荣耀维持了销量亚军的成绩，销量同比大增127.7%；而2022年第一季度销量排名第一的OPPO，销量同比下滑42.7%、环比下滑15.2%，销量同比环比下滑幅度，均高于国内市场智能手机的平均下滑幅度，销量排名也滑落至第三。

在如今国内芯片高端代工空缺的情况下，海思半导体尽管设计水平依旧名列前茅，但是因为众所周知的原因，导致麒麟无法量产；在这里，国内的供应链仍需加速发展。

这次，我们就谈谈智能手机SOC的那些事。

手机SOC俗称主芯片，一般集成CPU、GPU、XPU、Memory、ISP、Modem以及各种接口。

CPU

CPU是中央处理器，一般采用ARM架构，包括了寄存器组、指令集、总线、存储器映射规则、中断逻辑和调试组件等，分A系列、R系列、M系列。其中M系列主要用作微控制，主频较低，在500MHz以下，因此主要针对低成本和低功耗的应用，如MCU。R系列主要用作实时操作，主频在500MHz~1GHz，因此主要针对实时制动传动和通信，如Cat x物联网模块。A系列主要用作应用处理器，算力较强，主频在500MHz~3GHz，因此可以运行操作系统及提供丰富的媒体和图形体验，如手机平板CPU。

衡量CPU一般需要综合评估计算核（Axx架构）、主频（多少GHz）、缓存（多少K Cache）以及工艺制程（几nm）。用的什么架构决定了单核一次处理信息的能力，按ARM的命名规则，数越大处理能力越强，但A5X系列升级到X1超大核，A7X系列升级到X2超大核，也能明显看出后者更强。主频表示计算核一秒计算的次数，频率越高计算性能越强。缓存里存储的是被CPU访问最频繁的数据和指令，CPU调用时首先在L1 Cache里找，没命中再去L2 Cache里找，还没命中再去L3 Cache里找，最后才去内存里调用。缓存越大命中率越高，CPU计算效率也越高。工艺制程决定了晶体管的尺寸，一般制程节点越先进CPU性能越好，功耗越低，同等制程节点下，台积电制造的性能最好。

CPU遵循冯诺依曼架构（存储程序，顺序执行），因此需要大量的空间去放置存储单元和控制单元，相比之下计算单元只占据了很小的一部分，所以它在大规模并行计算能力上极受限制，而更擅长于逻辑控制。为了解决CPU在大规模并行运算中遇到的困难，GPU应运而生。

与CPU相对应的就是GPU，CPU是中央处理单元，GPU是图形处理单元。顾名思义，GPU是专门用来处理图形和视频显示的，我们能在显示器上看见图像就是GPU在工作。

计算机没有GPU也可以工作，就像远程服务器一样，但如果我们对显示有要求就不得不使用它了。现在基本CPU上都会集成GPU，也就是常说的集成显卡，但它的能力有限，办公有余，游戏不足。

我们的显示器上会有很多像素点，GPU的作用就是根据指令给每个像素点找到对应的颜色，每个像素点有上千万种颜色可供选择，一块屏幕又有数十万个像素点，游戏过程中还要随时刷新，因此这是一个庞大的工作量，就不得不交给独立的GPU来完成。

GPU

接下来，说说现阶段大力发展的NPU。我们以麒麟990为例，进行分析。

达芬奇架构，是华为自研的面向AI计算特征的全新计算架构，具备高算力、高能效、灵活可裁剪的特性，是实现万物智能的重要基础。具体来说，达芬奇架构采用3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现数量级的提升。

同时，为了提升AI计算的完备性和不同场景的计算效率，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。支持多种精度计算，支撑训练和推理两种场景的数据精度要求，实现AI的全场景需求覆盖。

在如智能手机等实际端侧AI应场景中，AI算力与功耗的协调是至关重要的，一般来讲更高的AI算力意味着更大的功耗，因此智能手机的续航常常使AI算力受限。而有了达芬奇架构NPU，这一状况将得到改善，如果麒麟990能够搭载达芬奇架构NPU，麒麟芯片或将再次迎来震动行业的算力升级。

DaVinci Core是如何实现高效AI计算的？

在2018年全联接大会上，华为推出AI芯片昇腾310，这是达芬奇架构的首次亮相，昇腾310相当于AI芯片中的NPU。其中，DaVinci Core只是NPU的一个部分，DaVinci Core内部还细分成很多单元，包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等，它们各自负责不同的运算任务实现并行化计算模型，共同保障AI计算的高效处理。

3D Cube矩阵乘法单元：算力担当

刚才已经提到，矩阵乘是AI计算的核心，这部分运算由3D Cube完成，Buffer L0A,L0B,L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。

Vector向量计算单元：灵活的多面

虽然Cube的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富，可以覆盖各种基本的计算类型和许多定制的计算类型。

Scalar标量计算单元：流程控制的管

Scalar标量运算单元主要负责AI Core的标量运算，功能上可以看作一个小CPU，完成整个程序的循环控制，分支判断，Cube/Vector等指令的地址和参数计算以及基本的算术运算等。

3D Cube计算方式，有哪些独特的优势？

不同于以往的标量、矢量运算模式，华为达芬奇架构以高性能3D Cube计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B 乘法为例：如果是N个1D 的MAC，需要N^2（即N的2次方）的cycle数；如果是1个N^2的2D MAC阵列，需要N个Cycle；如果是1个N维3D的Cube，只需要1个Cycle。

华为创新设计的达芬奇架构将大幅提升算力，16*16*16的3D Cube能够显著提升数据利用率，缩短运算周期，实现更快更强的AI运算。这是什么意思呢？举例来说，同样是完成4096次运算，2D结构需要64行*64列才能计算，3D Cube只需要16*16*16的结构就能算出。其中，64*64结构带来的问题是：运算周期长、时延高、利用率低。

SOC缓存

缓存其实就是CPU本身的内存，用来放置当前需要处理的数据，如同内存对于手机的作用，那么为何CPU不用手机内存而用本身的缓存呢？

CPU缓存的作用主要是为了解决CPU运算速度与内存读写速度不匹配的矛盾，而缓存的容量要比内存要小的太多，但是其速度要比内存快的多，因此这样会让CPU使用很长的时间等待数据到来或把数据写入内存中。搜索在缓存中的数据是内存中的一小部分，但这一小部分是短时间内CPU即将访问的，当CPU调用大量数据时，就能够避开内存直接从缓存中调用，从而加快读取速度。

当CPU需要读取数据并进行计算时，首先需要将CPU缓存中查到所需的数据，并在最短的时间下交付给CPU。如果没有查到所需的数据，CPU就会提出“要求”经过缓存从内存中读取，再原路返回至CPU进行计算。而同时，把这个数据所在的数据也调入缓存，可以使得以后对整块数据的读取都从缓存中进行，不必再调用内存。

高端CPU当前分为一级(L1)、二级(L2)和三级(L3)缓存，缓存容量L1最小，L2次之，L3最大。分为三级结构是因为L1制造难度大，成本高，但L1缓存容量对系统提升比较有限，所以一般都很小。而CPU的读取顺序是：L1→L2→L3→内存，L2作为外部缓冲，而L3就是L2的缓冲。因为CPU缓存比内存读取速度快，所以缓存容量越大越好。

2021年高端处理器都已经发布，那么CPU缓存部分哪家更舍得堆料呢，我们本次选择骁龙8gen1、天玑9000和A15来具体对比：

可以看到高通和联发科虽然提升很大，但苹果A15在CPU缓存方面依然遥遥领先，几乎相当于骁龙8gen1的5倍，天玑9000的4倍，这也是使用几年的苹果手机任然能够流畅运行的原因。

手机SOC内存RAMd的重要性

我们都知道，手机内存（RAM）越大性能和体验越好，对于安卓而言，这个道理简单粗暴。但除了容量，还有很多因素会影响手机内存的性能。

如今手机内存主要以LPDDR4X和LPDDR5两种标准为主。LPDDR5相比较于LPDDR4X，综合场景续航提升大约10%，玩游戏省电大约20%，微信视频和语音续航大约提升10%，一句话概括就是性能更强，功耗更低。实际上，从LPDDR3→ LPDDR4→ LPDDR4X→ LPDDR5，下一代内存较之前辈都具备上述优势。

内存频率：内存频率越高，性能越强。LPDDR4X就存在LPDDR4X-1866（等效3733MH）和LPDDR4X-2133（等效4266MHz）两种频率，LPDDR5也包含LPDDR5-2750（等效5500MHz）和LPDDR5-3200（等效6400MHz）两种频率，现在很多旗舰手机搭载的所谓“满血LPDDR5内存”，指的就是LPDDR5-3200标准。

内存通道：手机专用的LPDDR内存默认均为16bit位通道。以骁龙7系、6系、4系为代表的中低端移动平台都是2×16bit，即16位双通道（共计32位）；而骁龙8系移动平台则是4×16bit，即16位四通道（共计64位）。此外，旗舰级芯片普遍还能搭配更高频率的LPDDR5内存，所以它们才能保持对中端芯片的全面压制。

内存管理机制：iPhone手机的内存远不如同期的Android旗舰，但前者却依旧能保持良好的流畅性，也很少听说因内存不够用而导致系统卡顿，在这背后就是内存的调用和回收等管理机制逻辑有别了。配置一模一样的Android手机，打开相同数量的APP总有一款更流畅，说明其研发团队的“软实力”更强。

基带/射频前端

基带和射频的组合共同负责手机与外界的通讯，基带芯片可以说是手机与外界联系的纽带，射频前端主要负责信号的数字/模拟转换工作，同时还要负责信号的放大。二者共同组合决定了手机的制式，也就是你的手机是4G手机还是5G手机。

调制解调器

被称为手机与无线网络之间的桥梁，当我们使用手机打电话、上网、发短信等等联网行为时，都是由它处理执行的，调制解调器会在手机和无线网络间建立起一条逻辑通道，传送联网数据、调整通讯模式。

数字信号处理器（DSP）

它被称为处理数据的专家，负责处理数字信号，常见如使电话可双方同时讲话、辅助相机运算，甚至还用来做Ai运算。

总体上看，高度集成化是未来芯片行业发展的必然方向。

从手机制造商角度来看，手机在向着越来越轻薄的方向发展，所以手机内部的空间寸土寸金，高集成度的芯片可以有效的提高手机内部空间的利用率，降低手机的设计难度;同时也缩短了手机的开发时间，有利于产品更快上市。

从芯片制造厂商角度来看，提高手机芯片的集成度也有利于产品的成本控制以及提高竞争力。因为如果采用单独芯片设计的话，前期的晶圆开发成本就会非常高。

好了，今天就聊到这里，我们下期见。

我是六六科技人，我们说车谈科技。欢迎大家关注、评论、转发，大家的支持再是我创作的原动力，我们下篇再见。

欢迎有相同兴趣的朋友加入我们，聊汽车、聊科技、聊热点、聊人生。

本文地址：http://0561fc.cn/186586.html