边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

物联网海量市场需要的AI芯片由云端服务商芯片,边缘智能芯片和端节点芯片三部分构成。本文重点谈谈边缘智能芯片的选型、选型要素和应用案例,因为边缘智能芯片是给企业应用赋能的“中坚过程”。

前言
物联网海量市场需要的AI芯片由云端服务商芯片,边缘智能芯片和端节点芯片三部分构成。本文重点谈谈边缘智能芯片的选型、选型要素和应用案例,因为边缘智能芯片是给企业应用赋能的“中坚过程”。是三类AI芯片中承上启下的核心组成。边缘智能芯片选型要素有算力,接口能力,可编程性,CPU构架四要素,其中终端客户最关心的是屏的驱动能力,显示的像素和计算用时间等“看得见,摸得着”的东西。
(1)算力强
边缘智能芯片的算力要比终端算力更强,通常都是独立解决问题。例如,它的性能要比小区的人脸识别或者智能音箱语音识别的基于某种应用终端端的AI芯片处理能力要强1-2个数量级。
(2)接口能力
边缘智能芯片强调信息的可获得性,例如,可以同时支持多路摄像头等视频、音频的输入,对于类似MIPI的接口的数量会有很大的需求。
(3)可编程性
边缘智能芯片通常用面向工业用户,需要AI赋能用户,换言之:AI要和用户应用场景相结合,根据不同工业用户不同的场景需要进行编程,适配不同的模型和场景。一个良好的可编程的架构是解决问题的关键。边缘智能芯片在工业应用中要根据工业客户的需求通过算法和硬件对AI赋能,,这是边缘智能芯片核心特征。
(4)CPU构架
CPU构架由三组数据来描述,一是“核”的种类和“核”的数量,包括CPU,GPU,NPU等,以及ARM核或RISC-V核;二是主频,内嵌的存储器,RAM/FLASH,eMMC和通信;三是外设驱动能力,多屏异显,WiFi 6,5G通信等。
本文聚焦高端GPU边缘智能芯片和中端低功耗MPU,帮助工程师和产品经理选型指导,一颗是英伟达Jeston AGX Orin,另一颗是北京君正X2000。从算力,接口,可编程性和CPU构架参数评估给与选型实战意见和案例。最后,给终端设备制造商和方案商介绍三个Turn-Key方案,配有算法、SDK和AI学习能力支持。
01
边缘智能芯片架构:英伟达Jeston AGX Orin平台案例
英伟达发布的JESTON  AGX Orin是一个边缘的AI计算平台级芯片,虽然没有英伟达GPU知名。但JESTON同时继承了安培(Ampere)架构的GPU和 ARM Cortex-A78,在边缘智能芯片中,既可以做推理也可以做训练。作为一个边缘智能芯片产品,其有200Tops的处理性能(INT8)。我们以JESTON  AGX Orin为例,探索其芯片内部架构。
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:芯片的计算部分主要包括:CPU,GPU,DSA(NVDLA+PVA)

CPU:JESTON其内部有3组4核的A78,频率可达2GHz。也就是说,这个芯片内部有12核的A78的处理器,3组A78是对称的,其主要是面向计算服务。在一些标量的运算中,多核A78的计算能力非常强悍。这颗芯片是7nm的制程,功耗分别为15W,30W,45W。
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:JESTON  AGX Orin CPU 平衡配比

GPU:GPU是英伟达最新的安培架构,拥有2048个CUDA核,以及64个Tensor内核。这些都是可编程的,能够提供200TOPs 算力。安培架构是最新一代的GPU架构,前面几代分别是:Kepler,Maxwell,Pascal, Volta等。与其他边缘AI芯片不同的是,安培GPU可以支持推理和训练。最重要的是,这个AI芯片可以用cuda来编程,而可编程性则是边缘AI芯片的核心需求。DSA:作为AI加速单元,JESTON还有2个NVDLA 硬核,以及VISION加速器 PVA;NVDLA主要用于推理。内核核心还是一个大的矩阵卷积运算。PVA用了VPU的架构,使用VLIW的架构,VLIW是超长指令字结构,其并行度比较好,VIEW架构设计简化了硬件结构。VLIW的大位宽执行并不会以牺牲性能和频率为代价,而是将问题交给软件来处理。

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:VISION加速器 PVA

IO接口资源:边缘智能需要“眼观六路,耳听八方”,需要丰富的I/O。其中最重要的接口是MIPI, MIPI就是边缘AI芯片的眼睛,(用于连接摄像头),它支持6个摄像头以及16组通道的MIPI接口。同样还有USB接口,也可以支持一些USB摄像头。同样可以支持PCIe、RC和EP。也就是说,可以同时作为加速卡插在别的主机上,也可以作为主设备插别的加速卡。同时在网络方面,支持4路10G口,可实现高速互联,如有需要还可以实现高速网络传输,或者几个JESTON AGX的互联。
02
边缘智能芯片架构:北京君正X2000平台选型要领和案例
X2000 的 AI 能力关键词:算力、内存、低功耗、AI 平台,端侧 AI 赋能新引擎
X2000 是君正为物联网市场推出的新一代 SoC 产品。该产品是 XBurst 2 的首次亮相、双 XBurst 2+XBurst 0 的三核异构布局、符合 IEEE1588-2002 标准的千兆网口、三个摄像头接入能力、君正低功耗技术的继承和发展等。X2000 作为一个端侧 AI 平台,其能力是综合的:既有固化在芯片中的硬能力,如 XBurst 2 的算力、指令集、内存管理,也有君正自研的操作系统,各类物联网应用开发支持套件和人工智能开放平台MAGIK。X2000 建立在其图像、视频、互联等各方面的能力组合之上的 AI 能力,必将使其成为智能互联时代一款主控芯片,既可以成为完整的智能单元独立部署于端侧,也可以多颗 X2000 分工合作,形成较强的人工智能算力,成为一个较大规模的智能单元或分布式智能系统。
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:X2000构架图和I/O布局

· X2000的AI能力表现   
X2000包含凝结在芯片上的算力、存储、低功耗等“硬装备” 和深度神经网络开放平台 MAGIK 的训练、优化、部署等“软装备”。这些 “装备”为用户将君正芯片的应用从 IoT 提升到 AIoT 提供了可能性。X2000 内部集成了 128MBytes LPDDR3(X2000E管脚兼容,内部集成了 256Mbytes LPDDR2。)
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:XBurst 2内核与A53内核算例对比相当

· 赋能端侧 AI 是 X2000 的重要定位   
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正
X2000 属于 MPU,下图示出了 MPU 与大 CPU、MCU 的应用分工。MPU部署端侧 AI 的三个使命价值包括:

1.更快更紧密的交互方式,因为模型在本地执行,延迟小;

2.更自主的服务方式,因为在没有网3.络的情况下仍然可以提供服务;

4.更好的保护隐私,因为在本地进行数据收集和处理,数据不必上传。

实现端侧AI部署,因为模型要在性能和开销两个方面取得折中,也有三个挑战:

1.端侧算力有限,电力有限,限制了模型的复杂度,必需低功耗;

2.必须有专门的工具为端侧硬件平台 训练、优化模型;

3.端侧内存有限,限制了能运行的模型大小。

赋能端侧 AI 是 X2000 最重要的应用定位:

1.可以部署端侧 AI,或称嵌 入式 AI。

2.君正MAGIK平台为X2000训练和优化模型的能力;

3.片上集成的较大容量内存;

4.MAGIK 平台充分考虑这一边界条件;

5. 极致的低功耗水平,整个芯片的典型功耗 < 400mW;

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正
· X2000 的算力  
该算力体现在双 XBurst 2 + XBurst 0 的三核异构 CPU、MIPS 指令集和 SIMD 扩展指令集。1.主 CPU—双 XBurst 2 核,额定工作频率为 1.2GHz

2.基于同步多线程技术(Simultaneous Multi-Threading)的双逻辑核, 与双物理核相比,双核协同性更强,能效比更高

3.每逻辑核每周期发射 2 条指令,轻量级乱序执行顺序完成

4.L1 Instruction Cache 和 Data Cache 分别为 32KB

5.Floating Point Unit 和 Programmable Memory Management Unit

6.L2 Cache 512KB

7.高级能耗管理,硬件级闲置硬件模块关时钟技术;

8.特色第三核—XBurst 0 核额定工作频率 240MHz;内置 TCSM(Tightly Coupled Sharing Memory)32KB,主 CPU 和 DMA 可以直接访问这部分内存 。

· XBurst 2的SIMD扩展指令集  
1.XBurst2 基于 32-bit MIPS32 ISA R5 和 SIMD 扩展指令集;2.MIPS SIMD 指令集架构:MSA128;

3.Ingenic 128bit SIMD 指令集:MXA128;

4.全面支持向量计算;

5.数据类型可以是整型、浮点型;

6.可以实现音视频信号处理加速,支持语音识别、人脸识别、人/物检测等 深度学习等智能应用;

·深度神经网络开放平台MAGIK  
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:MAGIK 的架构

MAGIK 是北京君正的深度学习框架,它为在 X2000 上部署端侧 AI 提供了模型量化、模型转换和模型部署的“软”环境。借助 MAGIK 的支持,将AI 应用部署到 X2000,需要模型量化训练,模型转换和模型部署三个步骤:

模型量化训练

1.对于用户不同的模型构建条件,可以采取不同的模型量化训练策略;

2.可以使用 MAGIK 内 ReleaseModel 提供的君正研发的模型,结合自己的数据进行训练,获得 4~8bit 量化模型;

3.可以使用 Model Zoo 提供的业内常见模型,结合自己的数据进行训练,获得 4~8bit 量化模型;

4.使用 TensorFlow、mxnet、PyTorch、Caffe 等训练框架训练,获得Float 或 4~8bit 量化模型;

5.也可以使用已经成熟的模型,不经量化训练,直接进入模型转换(不追求 最优系统性能的情况下)。

模型转换由检测、转化和优化子集组成

① 模型检查(Model Checker)模型是否适合硬件平台、模型所 需算子是否在 MAGIK 提供的算子库内;

② 模型转换(Model Converter)将不同训练框架的模型文件转化为MAGIK 模型;

③ 模型优化(Model Optimizer)结合硬件平台的特点,对模型进行深度优化。

模型部署在MAGIK中适合X2000的底层推理固件库是 JZDL。 

在X2000上模型部署AI 推理是通过模型运行数据以获得预测(分类或回归)的过程,因采用精细的内存管理和数据结构设计,内存占用极低,整个推理套件仅需 393KB。为了支持用户在基于 X2000 的系统中部署 AI,MAGIK 包含推理套件 JZDL, 该套件具有以下技术特点:兼容 X2000 的专用推理固件库 ;根据 XBurst 2 的 SIMD 扩展指令集优化和手写汇编深度优化,充分发挥 XBurst 2 的性能。

模型算法技术支持

1. 支持常规卷积、Depthwise 卷积、池化、激活、全连接、Squeeze and Excitation、Concat、Split 等几十种算子

2. 支持多输入和具有分支结构的神经网络

3. 支持 Float 全精度前向推理和 8bit/4bit 量化前向推理

4. 检测类:人形检测、人脸检测、宠物检测、活体检测、哭声检测、车辆检 测

5. 识别类:人脸识别、文字识别、车牌识别

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:X2000主要技术规格

· 君正X2000智能锁+电子猫眼门铃单芯片解决方案   
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:智能猫眼锁方案框图

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正
双目近红外人脸识别门锁方案查看方案详情>>

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正
低功耗响应速度快的人脸识别门禁方案查看方案详情>>

· 君正开源显控方案,TOP客户成功应用案例
君正X2000显控应用于工业设备显示与控制主板、家电和智能家居中控板,在仪器、生产设备、电梯、电动二轮车、冰箱、厨房电器等产品有高性价比应用。由于其MPU特点,可完全取代原有MCU,实现一颗X2000搞定一台设备显示与控制。同时,君正提供开源软件和算法库支持等turn-key解决方案。
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:显控方案应用

君正开源软件支持1.下位机收发器与通信代码

a)应用于空调面板、厨电等家电面板项目中。

b)代码成熟、功能稳定。

2.framework: MVC的软件架构

a)标准的应用软件架构,使得客户业务逻辑解耦,利于快速产品化。

b)模块化软件结构设计,符合软件工程标准,可靠性强。

X2000显控方案技术规格

1.低功耗芯片:自主可控的IP,充分优化的功耗设计:sleep状态2.2mW;

2.平台完整:每种面板产品有针对性的软件框架,利于快速产品化。

a)支持QT/AWTK。

b)支持linux kernel4.4/kernel5.10。

3.图层加速,内置DPU

a)支持旋转功能90/180/270。

b)最多可支持GUI、视频等四个图层叠加

4.多媒体功能

a)内置codec,支持语音播放。

b)内置VPU编解码器,支持视频播放,可支持720P@60。

5.支持网络功能:支持网络协议,可支持WI-FI,蓝牙等。

6.算力强

a)可支持离/在线语音控制。

b)芯片算力可支持轻智能人脸检测。

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:显控硬件布局

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:显控开源软件支持

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正
支持ID登录语音播报的智能家居中控平板方案查看方案详情>>

· 云热敏打印机是 X2000 多核异构跨界应用的典型案例 
边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:云热敏打印机方案应用

1.打印头控制功能,包括马达驱动、加热控制,过热检测和控制,缺纸和卡纸检测;2.最快打印速度123mm/S;

3.操作系统和软件:Linux4.4、大小核跨界应用开发平台和驱动软件开源;

4.互联:Wi-Fi,蓝牙,以太网,USB,串口;

5.支持 Wi-Fi 配网,OTA 远程升级

6.输入:键盘,触摸屏,摄像头

7.输出:LCD,语音

8.标准支持:支持 IPP(Internet Printing Protocol);

9.支持 CUPS(Common UNIX Printing System)

10.支持二维码扫描与生成,形成扫描、打印一体解决方案

11.解码能力:支持解压 PDF,JPG 格式,云、端配合,减轻网络服务负担。

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:云热敏打印解决方案的硬件框架

云热敏打印解决方案中大小核的分工大核任务:

1.负责管理系统软硬件资源;

2.负责运行 Linux 4.4;

3.负责接收打印任务、二维码扫描任务

4.负责数据处理和计算

5.将需要打印的任务数据按约定规则以 DMA 方式发送小核

小核任务:

1.负责采集打印头的状态

2.协调打印机和数据准备的同步关系

3.负责按打印头的接口标准,将数据传送给打印头

基于 X2000 的云热敏打印机解决方案软件框架

操作系统和 SDK 套件、面向应用的软件服务包、各种打印机应用等三个层次。其中 SDK 套件包括的 Cross Cores 和 DMA 模块可以实现跨核资源交互和协同。而 OpenAMP(Open Asymmetric Multi Processing)则为开发商提供了开放的跨核通信、资源调度、动态 协同的开发接口。

边缘智能市场要素:海量需求,物联网切分三:边缘智能芯片选型要领,英伟达 vs 北京君正

图:云热敏打印机解决方案软件框架

  总  结  
X2000 的三核异构布局为智能物联网应用扩展到兼有数据计算和实时控制的跨界应用提供了处理器基础,也为应用层的开发提供了极大的灵活性。集三核异构、高达256MB 的片上 LPDDR、双千兆网、三摄接入能力和丰富接口能力于一身的 X2000 必将为碎片化的智能物联网应用提供丰富开发手段。

来源:我爱方案网 链接:https://www.52solution.com/

本文来自投稿,不代表乾坤芯立场,如若转载,请注明出处:https://www.qiankunxin.com/4698.html

(0)
上一篇 2022年6月21日 下午1:36
下一篇 2022年6月22日 上午8:15

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注