账号:
密码:
CTIMES / 文章 /   
异质架构与AI正加速云端边缘运算的发展
提升运算效能,降低系统功耗

【作者: 盧傑瑞】2022年04月26日 星期二

浏览人次:【1078】
  

虽然边缘计算有无数种定义,但今天的边缘运算大多是指透过这项技术,将运算、储存和网路等功能的子集(subset)工作,被分散到位於网络中最远端的一层或多层边缘节点。今天的边缘节点通常利用同质运算基础,也就是所有处理都在同一类型的CPU上运行。


CISC/RISC处理器是迄今为止最主要的解决方案,较小的边缘节点只需要使用单核心CPU就有足够的处理能力,通常使用X86或ARM架构。而更大的边缘节点则采用多核处理器的方案,内建2个~32个不等的X86、ARM或RISC-V内核,或者包括多个相同类型的CPU处理器。


云端数据中心的多处理单元异质架构

在云端平台方面的计算资源,是由传统的复杂指令集计算/精简指令集计算 (CISC/RISC) 伺服器所组成,或许也有部分平台还包括了,图形处理单元 (GPU) 加速器、张量处理单元 (TPU)、场域可程式闸阵列( FPGA)和其他一些处理器,来帮助加速部分的工作。



图一 : 一个先进通用的异质运算系统。(source:Mohamed Zahran)
图一 : 一个先进通用的异质运算系统。(source:Mohamed Zahran)

虽然这样的云端平台方面有强大的运算能力,但随着边缘节点的增加,大量的运算需求,开始大量消耗着云端平台的资源,导致整体效率大幅滑落。


因此异质运算的概念就被提出,并且正被实现中。异质运算是一种将不同数据路径架构下的不同类型处理器,以优化特定计算工作负载的执行技术。所以,在决定如何在云端数据中心,和边缘运算节点之间划分工作负载时,需要考虑许多权衡,来对每一层设计中面为不同应用程序时,进行优化的处理器数据路径架构就变得相重要。


在这样的架构下,云端数据中心可以将许多工作负担,分散到边缘节点的异质运算架构中。包括用於多种处理器类型的模组,包括 CISC/RISC CPU、GPU、TPU 和 FPGA等。而运算工作负载不仅可以分散在边缘和云之间进行,更可以在两个相异级别的异质处理资源之间分区进行。


例如图二中节的点F2和F3,可以并行地处理从F1传送的数据。而F4则是可以独立地处理来自F2和F3的数据,或者处於等待状态,直到来自两个节点的数据出现,这取决於所需的行为。



图二 : 多种处理器流程图的图示例。(资source:Institute for Information Transmission Problems, RAS;作者整理)
图二 : 多种处理器流程图的图示例。(资source:Institute for Information Transmission Problems, RAS;作者整理)

同时许多流程节点可以并行执行,其中也会一些不能,因为它们的功能无执行绪安全,尤其是对於神经网络节点,情况更是如此。


在软体方面,则有多种平台可以选择,例如Microsoft的Azure Edge、Amazon的Greengrass、VMware Edge,以及 Eclipse、EdgeX Foundry和Linux等。透过这些软体来管理边缘节点中CISC/RISC的基础架构、配置、安全性、编排、管理等。


加速器与CPU协同使用 提高系统效能

随着人工智慧/机器学习开始占据优先地位,新出现的各种应用陆续对处理单元提出了独特的服务需求,包括了可以执行乘积累加运算(Multiply Accumulate, MAC)、极高并行化和大量数据存取等运算任务等。


因此,这样的背景下,期??能满足效率提高且不增加功耗,又可以支援人工智慧/机器学习下,最好的方法就是建立一个全新的运算架构,而这个架构可以由多个协同工作的专用运算模组所组成。每个模组都能高速的执行单一任务,并且在低功耗下,呈现出的是更高的效能和更低的整体功耗。


异质系统是可以提供更高效率的运算能力,就如上述,需要跨主机CPU和加速器来分配工作。因此就需要一些方法来对叁数的分析与AI的规划,在机器学习模型最隹化後,让系统达到接近最优秀的配置。


从历史上看,运算处理是一项通用任务,利用CPU可以顺利地执行许多不同的任务,但以今天的观点来看,这并不太聪明,因为一次只能执行单一任务。


直到图形化使用者介面(GUI)的出现,使得操作和运算处理变得越来越复杂,因此GPU就被开发出来作为个专门的、高度并行运算的处理器。


加速器通常会与CPU协同使用,来提高整体系统的效能。例如,前500强的超级电脑名单里,功能最强大的5台电脑中,就有3台是采用GPU作为加速器的异质电脑(图三)。因此可以透过不同的架构特性和大量的系统叁数配置(例如执行绪数、执行绪亲和性、主机多核处理器与加速设备之间的工作负载划分),设计出最隹的工作负载分配,来实现最优异质系统的性能和耗电效率。



图三 : 500强的超级电脑前5强中,就有3台是采用异质架构。(source:Top500.org)
图三 : 500强的超级电脑前5强中,就有3台是采用异质架构。(source:Top500.org)

不过必须注意的是,能够产生最高吞吐量的最隹系统配置未必是最省电的。此外,最隹系统配置也有可能需要因应不同类型的应用运算、输入问题大小和可用资源而进行调整改变。


异质节点的效益衡量标准

在优化经济效率方面,工业物联网联盟CTO助理Charles Byers曾经提出2个计算方法:一些吞吐量/一些成本来作为衡量标准(Some throughput measure/Some cost measure)。


随着更开放的软体和硬体生态系统,硬体的成本将会持续降低,而使得更庞大终端客户采用多边缘运算。每一美元所购买的系统能拥有更多吞吐量下,是优化边缘系统总生命周期的一种重要成本方法。因此一美元购买的吞吐量,在很大程度上取决於系统架构、处理器的能力、基础设施的效率,以及被要求的软体平台和演算法。


边缘节点运转所需的电力是一个极其重要的考量部分,无论电力是由电池供电,还是直接从电缆供电,耗电率通常是占营运成本的最大比例。另一方面,进入处理器的电能几??完全转化为热量,而这些散热设施,也会是建置和运营成本的重点之一。因此,电源和散热是相当大程度决定了边缘运算单元的吞吐量。


此外,空间也是另一个考虑因素,边缘节点是否位於蜂窝塔的底部、路边机柜、货柜大小的微型数据中心、车辆中,甚至是可携带式。随着处理器愈来愈多,空间相关的成本也会相对地急速增加。


在计算与边缘运算节点相关的真实成本时,权重是另一个经常被忽视的考虑因素。在某些情况下,尤其是对航空、太空、海上或可携式的产品规划时,重量受到很大限制下,处理器技术的选择就会对系统的整体重量产生很大影响。


边缘计算的性能、成本和效率,可以透过仔细选择各种类型的异质处理器来进行边缘工作负载。因应不同工作负载需求,可以透过选择不同的处理器类型来组成最隹化的的运算模组。


更进一步的可以透过模组多元组合机制,动态地调整各异质处理器架构,来匹配来自於负载的需求。因此异质处理器技术,在边缘运算中特别具有价值性,因为它们可以大大改善资源受限的边缘节点,来降低吞吐量成本以及提高经济效率。


工作负载的方式不断改进

目前虽然有许多系统采用异质架构来加速工作负载中的人工智慧部分,但可惜的是只在节点层面上的建立异质运算。可以坦白的说,在每个运算节点上部署这些资源是不符合成本效益的。


部分原因是,工作负载主要以物理为基础来进行模拟,而许多工作并不会使用这些资源,因此大部分时间都会被闲置。此外有许多加速器不是针对运算节点部署而设计的,这会比预期的成本更加昂贵,最重要的是,它们还不是最有效的部署方式。


也就导致目前对於工作负载的改进,不断的有论文被发表出来,特别是今天大家所关注被称为认知模拟的工作。


图四是系统性能调整的过程。传统上,寻找最隹系统叁数的过程涉及到选择叁数值、程式执行和多次反覆的性能分析(图四a)。较常见的暴力搜索(Brute-force Search),需要对所有可能的叁数值执行分析,因此,对於现实世界的程式和系统来说,可能需要花费更长的时间来寻找出最隹叁数。


而与暴力搜索相反,透过人工智慧的启发式搜索是透过自然启发式演算法为基础,能够以较少的性能测试,来找寻到最隹的解决方案,其基础是自然启发式演算法(例如,Simulated annealing或Artificial Bee Colony)。而图四b则是说明了,利用AI启发式叁数值选择与机器学习模型相结合,来进行性能评估的方法。



图四 : 使用AI规划启发式和机器学习优化异质系统。(source:SpringerLink-Suejb Memeti & Sabri Pllana研究论文;作者整理)
图四 : 使用AI规划启发式和机器学习优化异质系统。(source:SpringerLink-Suejb Memeti & Sabri Pllana研究论文;作者整理)

利用叁数空间的智慧导航减少总暴力实验

使用AI启发式搜索技术的优化过程,但会涉及到随机选择叁数值的系统配置,和使用机器学习模型的系统性能评估。虽然可以利用暴力搜索的方法,迭代(Iterative)出所有可能的叁数配置,但是这样会使用了大量的总暴力实验。


因此,瑞典卡尔斯克鲁纳布莱金厄理工学院欧洲的两位专家,Sabri Pllana与Suejb Memeti就提出利用叁数空间(parameter space)的智慧导航过程,来确定最隹的系统配置,而这样的方式下,只需要进行一小部分可能的性能实验。这比起前述的方式,只需使用大约7%的总暴力实验,就能够确定每焦耳下最隹的系统配置。此外,使用这个方式的机器学习模型来评估系统组态,会比利用程式执行来评估系统要快1000倍以上。


虽然异质架构是现阶段建立具有高峰值性能,和低能耗的计算机系统的最可行方式,但CPU和加速器之间的最隹工作共享并不明显,同时考虑性能和能耗也会使工作共享问题进一步复杂化。因为优化过程涉及到了随机选择叁数值的系统配置生成,和使用机器学习模型的系统性能评估,因此可透过概率启发式搜索技术来进行叁数空间探索。


经过实验发现,在这样的方式所开发的机器学习模型,为搜索出最隹系统配置所提供讯息的准确度超过了95%。同时在速度上,更比暴力搜索快上1300倍。


所以在边缘运算、雾运算和云运算的背景下,各层次之间的数据移动成本很高,想要确定在哪一层执行处理是最隹的模式这并非是易事。此外,与异质系统相类似,对於特定的问题,在不同层中可用各种资源间的共享工作负载,也会产生与能量、性能或成本的最隹解决方案的选择。


相关文章
PLC串起物联网智慧制造
聪明部署边缘节点 实现灵活工业运行环境
COM-HPC全新规格 满足边缘运算市场的高阶需求
AI效益发威 边缘人工智慧持续进化
云原生:边缘云端储存弹性化
comments powered by Disqus
相关讨论
  相关新闻
» 远景科技与世平兴业合作拓展亚太区物联网市场
» 台湾国际医疗展开幕 拓展健康医疗跨域商机
» 中华电投入5G智慧医疗应用 高雄荣家智慧长照服务正式上线
» 台北通为全台首创通过三项资安及个资认证市政APP
» 移远通信与英伟达完成联调加速AIoT应用开发
  相关产品
» IAR Systems发表最新版完整开发工具链加速创新
» NetApp为分布式工作环境提供云桌面即服务解决方案
» 圆刚推出首款企业级4K网路摄影机 Intel显示卡优化效能
» Vertiv新款浸没式液冷创新方案适於高密度资料中心和边缘应用
» Bureau Veritas协助推行ISASecure ISA/IEC 62443全球网络安全符合性计画


刊登廣告 新聞信箱 读者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2022 远播信息股份有限公司版权所有 Powered by O3
地址:台北市中山北路三段29号11楼 / 电话 (02)2585-5526 / E-Mail: webmaster@ctimes.com.tw