您当前的位置 :首页 > 十城 > 十城视界 >
合作热线:010-86666666

开发嵌入式视觉

2017-03-18 11:14 来源:未知 责任编辑:admin
    赛灵思 INT8 优化为使用深度学习推断和传统计算机视觉功能的嵌入式视觉应用提供最优异的性能和能效最出色的计算方法。与其他 FPGA DSP 架构相比,赛灵思的集成 DSP 架构在 INT8深度学习运算上能实现 1.75 倍的解决方案级性能。
    
    本白皮书探讨将 INT8 运算用于实现在赛灵思 DSP48E2 片上、使用深度学习推断和计算机视觉功能的嵌入式视觉应用,以及这种方案与其他FPGA 的对比。与占用相同资源数量的其他 FPGA 相比,赛灵思的 DSP 架构对 INT8 乘法累加(MACC) 运算能实现 1.75 倍的峰值解决方案级性能。由于嵌入式视觉应用可以在不牺牲准确性的情况下使用较低位精度,因此需要高效的 INT8 实现方案。赛灵思的 DSP 架构和库针对 INT8 运算进行了精心优化。本白皮书介绍如何使用赛灵思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同内核权重的同时处理两个并行的 INT8 MACC 运算。本白皮书还阐述了要运用赛灵思这一独特技术,为何输入的最小位宽为 24 位。此外本白皮书还详细介绍了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算术运算使用。另外还提供在深度学习领域或其他计算机视觉处理任务领域如何将这些功能用于嵌入式视觉的实例。
    
    嵌入式视觉是专业术语,指的是在嵌入式平台上实现用于现实用途的计算机视觉算法。虽然计算机视觉算法近年来有明显改进,要在降低功耗的条件下将这样复杂且高计算强度的算法移植到嵌入式平台上却是一大挑战。以更低功耗处理更多运算是一个亘古不变的需求,无论是对过滤、角点检测等传统计算机视觉算法还是对深度学习算法。
    
    深度神经网络凭借人类级 AI 功能已推动众多应用不断演进并重新对其定义。鉴于这类算法提供的超高精度,这些网络是嵌入式设备中的主要工作负载。随着更精确的深度学习模型被开发出来,它们的复杂性也带来了高计算强度和高内存带宽方面的难题。能效要求正推动深度学习推断新模式开发方面的创新,这些模式需要的计算强度和内存带宽较低,但绝不能以牺牲准确性和吞吐量为代价。降低这一开销将最终提升能效,降低所需的总功耗。
    
    除了节省计算过程中的耗电,较低位宽的计算还能降低内存带宽所需的功耗,因为在内存事务数量不变的情况下传输的位数减少了。
    
    对用于深度学习的 INT8 运算的优化也直接地适用于大量传统计算机视觉功能。这些算法一般工作在 8 位到 16 位整数表达式。OpenVX [ 参考资料 4] 是一种近期提议的计算机视觉标准,规定了每个通道 INT8表达式的用法。大多数计算机视觉应用需要某些程度的过滤,而过滤能够分解为一套点积运算。赛灵思DSP48E2 Slice 上的 SIMD 运算模式为实现视觉算法涉及的运算提供额外选择。
    
    UltraScale 和 UltraScale+ FPGA、Zynq UltraScale+ MPSoC(可编程逻辑)中的赛灵思 DSP48E2 Slice设计用于完成一次乘法和加法运算,最大可在一个时钟周期内高效地实现 18x27 位相乘和 48 位累加,如图 1 所示。除了采用回送或链接多个 DSP48E2 Slice,乘法累加 (MACC) 也能使用赛灵思器件高效完成。
    
    INT8 计算本身就能发挥宽 27 位带宽的优势。在传统应用中,预加法器一般用于高效实现(A+B)xC类型的运算,但这类型运算不常见于深度学习和计算机视觉应用中。将 (A+B)xC 的结果分解为 AxC 和BxC,然后在独立的数据流中进行累加,使之适用于典型深度学习和计算机视觉计算的要求。
    
 

[责任编辑:admin]

精华推荐

精选图集

热点文章

关于本站| 联系我们| 免责声明| 招聘信息| 广告服务|

Copyright 2006-2016 十城网10city.net Inc. All Rights Reserved 主管:江苏大江文化传媒技术维护部 主办:江苏大江文化传媒

违法和不良信息举报电话:010-2200000传真:010-2300000 食品药品监管总局投诉举报电话:12331互联网违法和不良信息举报电话:12377

本网常年法律顾问团:江苏大江文化传媒律师组(010-2200000)

十城网