肯定答复
前往顶部
  • FN小法式榜样
  • 登录
  • 注册
    1. 阿里线下智能筹划退化史

      小竹笋
      2019-05-30 14:20:23
        今朝该办法曾经被广泛应用到各类端上目标检测和图象识其他实际项目中。相干成果曾经在 AAAI 2018 上发表。  

      阿里巴巴机械智能实验室线下智能团队从 16 岁尾开端触及线下智能范畴,从算法、工程、产品化、营业落地多个方面动手,与协作同伴们一路取得了一些小小的成就。算法方面,我们提出了自立研发的模型紧缩办法,新型模型构造和目标检测框架;工程方面,我们研收回一套非数据依附的量化练习对象,并且针对不合硬件平台,研发了高效推理计算库;同时我们也和办事器研发团队一路笼统出了一套软硬件产品化筹划,以办事多样的营业情势,并在真实营业场景中实验落地。

      在前面的篇幅中,我们重要会从算法摸索、练习对象、推理框架、产品化和营业形式等方面对之前的任务做一个总结和分享。

      算法摸索

      基于 ADMM 的低比特量化

      低比特量化是模型紧缩 ( ModelCompression ) 和推理加快 ( Inference Acceleration ) 中一个核心的成绩,目标是将神经搜集华夏有的浮点型参数量化成 1-8Bits 的定点参数,从而减小模型大小和计算资本消费。为懂得决这个成绩,我们提出了基于 ADMM(Alternating Direction Method ofMultipliers)的低比特量化筹划。在地下数据集 ImageNet 上,我们在 Alexnet,ResNet-18,Resnet-50 等经典 CNN 搜集构造上做了实验,不管是精度上照样速度上均逾越了今朝已知的算法。我们可以在 3-bit 下面做到简直无损紧缩。今朝该办法曾经被广泛应用到各类端上目标检测和图象识其他实际项目中。相干成果曾经在 AAAI 2018 上发表。

      同一量化稀少框架

      量化技巧可以经过过程简化计算单位(浮点计算单位 -> 定点计算单位)晋升推理速度。 稀少化 ( Pruning ) 技巧则是经过过程对神经搜集中的通路停止裁剪来增添真实计算量。我们很天然的将这两个技巧融合到了一路,来获得极限的实际加快比。在剪枝过程当中,我们采取了渐进式的练习办法,并结合梯度信息决定搜集中途径的重要程度。在 ResNet 构造上,我们可以做到 90% 稀少度下的近似无损紧缩。

      在稀少化研究过程当中,我们发清楚明了一个成绩,更细粒度的裁剪常常会取得更高的精度,然则价值是就义了硬件友爱性,很难在实际应用中取得实际加快比。在前面的章节中,我们会经过过程两个角度来处理这个成绩:

        • 软硬件协同设计,从软硬件角度同时出发处理成绩;
        • 新型轻量级搜集,从软件角度设计合适更合适现有硬件的构造。

      软硬件协同搜集构造

      经过过程量化和稀少技巧,我们可以取得一个实际计算量足够低,所需计算单位足够简单的深度搜集模型。下一个要处理的成绩就是我们若何将其转换成一个真实推理延时低的算法办事。为了挑衅极限的推理加快后果,我们和办事器研发团队一路,从软硬件结合设计出发处理该成绩。在该项目中,我们提出了以下几个创新点,个中包含:

      • 软硬件协同设计方面,我们针对硬件物理特点提出了异构并行分支构造,最大化并行效力。
      • 算法方面,我们应用量化、稀少、知识蒸馏等技巧,将实际计算量紧缩到原始模型的 18%。
      • 硬件方面,我们经过过程算子填充技巧处理稀少计算带来的带宽成绩,应用算子重排技巧均衡 PE 负载。

      经过过程上述筹划,我们只须要 0.174ms 的 latency 便可以完成 resnet-18 复杂程度的模型推理,达到业内最好程度。该筹划在对 latency 敏感的范畴具有极大的优势。相干成果曾经在 HotChips 30 上展出。

      新型轻量级搜集

      软硬件协同设计是一个异常好的推懂得决筹划,然则改筹划的开辟本钱和硬件本钱都很高。某些特定的场景关于 latency 和 accuracy 的容忍度比较高 (例如人脸抓拍)。为懂得决这类需求,我们提出了一种多结合复用搜集 (Multi-Layer Feature Federation Network, MuffNet) ,该构造同时具有 3 个特点:

      • 稀少的拓扑构造,同时更轻易获得高频照应;
      • 密集的计算节点,包管硬件友爱性;
      • 针对低本钱硬件充分优化,小计算量下精度晋升更明显;

      我们提出的新型搜集由于每个单位的计算比较密集,其实不存在过量的碎片操作,是异常合适在通用硬件上运转的。在地下数据集 ImageNet 上,我们在 40MFLops 计算量上比拟今朝业内最优的 shufflenetv2 构造,精确度相对晋升了 2%。

      端上目标检测框架

      比拟图象辨认类义务,目标检测类义务的实用处景更广泛。高效的目标检测框架具有很高的研究价值。针对端上场景,我们提出了一个 LRSSD 框架 ( light refine single short multiboxdetector ), 该框架包含以下几个特点:

      • 简化 SSD HEAD,采取共享猜想层 设计特点融合模块;
      • 融合不合标准下信息 级联情势的 bbox 回归;
      • 对检测模型做全量化处理。

      如上表所示,雷同 backbone 搜集的情况下,我们提出的 LRSSD 在增添 SSD HEAD 计算量的同时,mAP 可以稳定晋升 3%-4% 。从另外一个角度来看,在包管检测精度不变的情况下,我们的办法可以将模型复杂度增添到本来的 50% 阁下。假设再推敲到量化带来的速度加成,在雷同精度下,比拟原有全精度模型,我们可以取得总共约 2-3 倍的真实速度晋升。

      小结

      上文给出了我们近 2 年内涵线下智能—模型紧缩范畴所做的一些技巧积聚。归结起来以下:

      • 量化方面:我们可以做到 3-bit 量化简直无损紧缩!
      • 稀少方面:关于传统搜集构造,我们可以做到 90% 稀少度下的简直无损紧缩!
      • 软硬件协同设计方面:我们结合办事器研发团队,达到 0.174ms/ 张的 resnet18 极限推理速度,今朝已知业内最好后果!
      • 轻量级搜集设计方面:我们在 40MFlops 计算量下,相对今朝业内最好构造,在 ImageNet 数据集上相对晋升 2%!
      • 端上目标检测方面,我们在包管精度不变的情况下,速度晋升约 2-3 倍!

      在技巧摸索的同时,我们也在积极的将上述技巧应用到实际的营业中。在这一过程当中我们发清楚明了以下几个成绩:

      • 易用性: 营业场景常常须要快速的迭代才能和灵活便利的安排才能,是以非标准化的筹划很难被广泛应用。
      • 实际速度 vs 真实速度: 除算法和硬件以外,真实的模型推理速度是须要一个高效的工程完成作为支撑的。
      • 集成化 :线下智能须要同时考验团队在硬件和软件方面两方面的实力,这对营业而言常常太过沉重。

      在本文后半部分,我们起首会针对上述的几个成绩简介我们曾经做过的测验测验和沉淀出的处理筹划。最后,我们列出了一些实例,展示如安在详细的营业场景中应用线下智能技巧,欲望可以给各位同窗一个更直不雅的熟悉。

      练习对象

      在实际营业推行过程当中,我们碰到的第一个成绩是易用性成绩:

      • 不合营业常常应用的深度进修库多种多样,例如 Caffe, Tensorflow, Mxnet 等等;
      • 不合营业应用的基本技巧差别比较大,有分类辨认、检测、瓜分、语音等等;
      • 不合营业的数据安然级别差别比较大,有些可以地下,有些则须要完全物理隔离;

      为了让更多的场景都可以用上我们的办事,取得 AI 的红利,我们提出了一套标准化的量化练习对象。

      如上图所示,起首,我们的对象输入支撑多种模型格局 ( TensorFlow,Caffe,Mxnet 等)。其次,我们供给了两种不合的模型量化办法,一种是支撑不合义务 (分类,检测,瓜分等) 的数据依附型紧缩办法 ( Data Dependent Compression ) , 实用于对数据安然请求不是很高,欲望寻求精度最大化的营业;另外一种是数据非依附紧缩办法 ( Data Independent Compression ),实用于对数据安然请求高,或许营业逻辑不是特别复杂的场景。

      最后,在量化任务完成后,我们的对象会主动完成推理图的优化和模型加密,生成可以实际安排的模型文件。合营对应的推理加快库便可在端上运转。从易用性和数据安然性角度出发,我们推荐应用数据非依附性的紧缩办法。

      今朝,该套对象作为 MNN 推荐的量化对象广泛应用在阿里集团内多个线下营业场景中。

      推理框架

      实际中碰到的第二个成绩就是真实推理速度成绩,毕竟光有易用性是不敷的,实打实的营业后果才是营业最想要的。这里我们应用阿里集团其他的兄弟团队供给的推理框架:

      • ARM 架构: 我们采取淘系技巧团队研发的 MNN 作为推理框架;
      • GPU 架构: 我们采取机械智能技巧团队研发的 falcon_conv 卷积库作为推理框架;
      • FPGA 架构:我们采取办事器研发团队研发的推理框架。
      • MNN

      MNN 是一个轻量级的深度进修端侧推理引擎,核心处理深度神经搜集模型在端侧推理运转成绩,涵盖深度神经搜集模型的优化、转换和推理。今朝,MNN 曾经在手淘、手猫、优酷、聚划算、UC、飞猪、千牛等 20 多个 App 中应用。选用罕见的深度神经搜集模型 MobileNet V2 和 SqueezeNet V1.1 作为测试样本:Android 方面,以小米 6 为例,MNN 在 CPU 和 GPU 上抢先业界至少 30%;iOS 方面,以 iPhone 7 为例,MNN 在 CPU 和 GPU 上抢先业界至少 15%。

      FPGA

      FPGA 上的推理框架由办事器研发团队完成。ResNet18 搜集的推理时间只须要 0.174ms,今朝已知业内最好性能。在边沿计算产品 alibabaedge 上,基于硬件完成的高效算子,推理速度为边沿 GPU 的两倍。在前面,我们会结合产品形状全体的简介这一筹划。

      GPU

      falcon_conv 是机械智能技巧团队开辟的一款由 CUDA C++ 编写,在 Nvidia GPU 上运转的低精度卷积库,它接收 2 份低精度 ( INT8 ) 张量作为输入,将卷积成果以 float/int32 数据输入,同时支撑卷积后一些惯例操作 ( scale,batchnorm,relu… ) 的归并。我们在单张 Tesla P4 GPU 上,对 falcon_conv 的性能与 Nvidia 官方计算库 Cudnn v7.1 做了比较,如图所示。简直所无情况 falcon_conv 都优于 Cudnn ,个别用例有高至 5 倍的晋升,用例选自 RESNET 和 VGG 中耗时较多的卷积参数。

      产品化

      在营业支撑过程当中我们碰到的第三个成绩是集成化,产品化成绩。除手机类场景外,其他线下营业均须要额外的硬件平台作为支撑。在起初时辰,我们更多的是依附第三方供给的硬件设备,这时候辰本钱,稳定性,可扩大性 成为制约线下项目拓展的几个重要成绩。为懂得决这些成绩,我们根据以往的项目经历,对硬件设备停止归结,沉淀出两类比较通用的线下产品化筹划:智能盒子和一体化相机。每类产品均包含不合型号,以适应不合需求的场景。

      智能盒子

      我们供给的第一个筹划为智能盒子筹划。我们可以简单的把智能盒子算作一个合适于中小型场景的边沿办事器。盒子本身供给了多种接口,可以外接 usb/ip 相机,语音模块等传感器。直接本地安排,数据安然性高。我们针对营业特点供给了高低两个版本的智能盒子。个中,高端版本采取阿里巴巴自研的边沿计算产品 Alibaba Edge 。除完美的硬件设计和高效的推理框架,该盒子还包含完美的编译器支撑,具有异常好的易用性。 低端版本则为纯 ARM 的盒子。下面表格给出这两种盒子在性能,本钱和实用处景的一个比较。

      在这里我们侧重简介一下阿里巴巴自研的边沿计算产品 Alibaba Edge,该产品除具有高达 3TGFlops 的 AI 计算才能外,相对边沿 GPU 筹划有大幅的价格优势,同时具有云端一体化安排功能,产品平台化,可快速上线,支撑大范围运维。

      鄙人面的表格中,我们比较了 LRSSD300+MobileNetV2 的不合硬件设备上的运转时间,欲望可以给人人一个更直不雅的熟悉。

      ARM FPGA 边沿 GPU
      Inference Time ~150ms ~18ms ~40ms

      一体化相机

      我们供给的另外一个集成筹划为一体化相机。一体化相机特别合适云 + 真个安排形式:线下做比拟较较简单的处理功能,云端则深度处理线下传回的信息。达到节约带宽,降低云本钱的感化。同时,一体化相机具有便利安排,批量化临盆后本钱优势高的特点。今朝一体化相机曾经作为一个重要的载体情势被应用到我们所承接的对集团外协作项目中。

      营业协作

      在之前的 2 年间,我们测验测验过量种不合的营业形式。在这里我们会列出重要几个不合情势的实例。

      菜鸟将来园区

      在菜鸟将来园区项目中,我们重要担任基本视觉类算法的输入,由菜鸟聪明园区团队同窗担任营业算法和工程办事研发任务。经过半年的合营尽力,我们前后完成了离岗睡岗检测,消防通道异常检测,车位占用检测,行人越界检测,出口计数检测等多个功能。

      在项目协作的过程当中,我们发明计算单位本钱高是制约算法大范围推行的一个重要缘由。为懂得决这个成绩,我们结合了办事器研发团队,开辟出一版定制化软硬件处理筹划:该筹划的硬件平台为我们在上文中提到的边沿计算产品 Alibaba Edge,同时装备特别定制的高效模型构造和自研的快速检测算法。新版筹划在检测精度简直无损的情况下,推理速度晋升了 4-5 倍,本钱相比边沿 GPU 筹划降低了 1/2。

      模型紧缩加快

      我们协助阿里集团不合营业同窗完成对已有算法模型的量化瘦身与加快任务。例如:手机端 OCR 辨认、手机端物体检测、手淘实人认证和刷脸登录 / 验证、菜鸟自提柜、阿里体育赛事刷脸入场、神州鹰人脸辨认云相册等。

      总结与展望

      经过近两年的尽力,机械智能技巧实验室线下智能团队深耕线下智能范畴。算法方面:我们在低比特量化、稀少化、软硬件协同设计、轻量级搜集设计、端上目标检测等多个方面取得了必定的积聚,多项目标达到了业内最好程度。工程方面:我们积聚出了一套 高灵活性,高数据安然性 的练习对象 ; 并在合股同伴的赞助下,在 ARM,FPGA,GPU 等多个平台下达到了业内最好的推理性能。产品化方面:我们与协作同伴一路,研收回合适于不合营业场景的智能盒子与一体化相机。最后,我们很荣幸可以在集团表里多个不合情势的营业场景内打磨我们的技巧。

      THE END
      点赞(187)
      收藏(0)
      分享此文章
      标签:
      本文为原创文章,作者:小竹笋,如若转载,在文章标题后注明 “文章来源:FN (Fintech News)|FN.com”,网址 :http://mazitan.com/depth/85272.html 若背规转载,FN资讯有权穷究司法义务。
跟帖

0

参与

0

发表评论
  • 暂无评论~
全球热点
币圈凛冬将至,埋伏哪些项目以待星火燎原
自6月份市场开启下跌形式以来,主流币、盗窟币全体跌幅巨大。ETH、EOS、ONT等主流币种前后演出跳...
小竹笋

2019-10-25 16:43:59
EOS 比特币
深度
贝索斯和巴菲特的启发:存眷经久的人有巨大竞争优势
本文是浑沌大学创办人李善友传授在浑沌创新院第一模块的最后一课《你真的懂得透贝索斯了吗?》的内容,值得...
资管网

2019-06-27 10:57:43
深度
5大外部细节,解密Facebook加密泉币Libra研发内幕
由于毫无经历可循,Facebook团队在筹划加密泉币的过程当中屡屡碰鼻,有员工为处理成绩乃至每天任务2...
梁雨山

2019-06-21 11:06:49
深度
双面趣店:躺赚之下的真实战局
高速增长的趣店和赓续掉败的趣店,哪个是真实的趣店?
零壹财经

2019-06-20 12:18:46
深度
肖磊:离华尔街接收比特币行业曾经不远了
泉币究竟是一个甚么器械,没有人能解释得清楚,但经济学家会给出一个不合的答案,泉币即机会,具有泉币越多...
肖磊看市

2019-06-16 20:21:25
hLgww.com bfcmbj.com csyxj.com syzkbz.com qxdsgs.com mjjrxh.com cszty.com sjm6.com cqhdsk.com nnjmsc.com lweiew.com e-pidai.com cqlcbxg.com zhyscm.com kmxxfc.com wiseivr.com 0826sy.com 1233gov.com gcibuy.com tc3250.com bsxcnjy.com wdlhrq.com ycjili.com sqsmgw.com fdjsfp.com bjc666.com axinbao.com btzy5.com ff0917.com 7jga.com shi8888.com szbz160.com wayxsc.com urc2.com 55tcq.com 5517you.com woaitx8.com gz-bsyl.com 590ym.com mazitan.com zdjxfs.com qzwhzs.com trqsg.com fsrsjx.com nncxbz.com tywjcc.com sjxlfs.com mcuxwtc.com bhrsj.com gl0577.com