在FPGA上优化实现复数浮点计算.doc

上传人：白大夫

文档编号：3408109

上传时间：2019-08-22

格式：DOC

页数：3

大小：16.50KB

《在FPGA上优化实现复数浮点计算.doc》由会员分享，可在线阅读，更多相关《在FPGA上优化实现复数浮点计算.doc（3页珍藏版）》请在三一文库上搜索。

1、在FPGA上优化实现复数浮点计算性能浮点处理一直与高性能CPU相关联。在过去几年中，GPU也成为功能强大的浮点处理平台，超越了图形，称为GP-GPU（通用图形处理单元）。新创新是在苛刻的应用中实现基于FPGA的浮点处理。本文的重点是FPGA及其浮点性能和设计流程，以及OpenCL的使用，这是高性能浮点计算前沿的编程语言。各种处理平台的GFLOP指标在不断提高，现在，TFLOP/s这一术语已经使用的非常广泛了。但是，在某些平台上，峰值GFLOP/s，即，TFLOP/s表示的器件性能信息有限。它只表示了每秒能够完成的理论浮点加法或者乘法总数。分析表明，FPGA单精度浮点处理能够超过1 TFLOP/

2、s。一种不太复杂的常用算法是FFT。使用单精度浮点实现了4096点FFT。它能够在每个时钟周期输入输出四个复数采样。每一个FFT内核运行速度超过80 GFLOP/s，大容量FPGA的资源支持实现7个这类的内核。但是，如图1所示，这一FPGA的FFT算法GFLOP/s接近400 GFLOP/s。这是按键式OpenCL编译结果，不需要FPGA专业知识。使用逻辑锁定和DSE进行优化，7内核设计接近单内核设计的Fmax，将其GFLOP/s提升至500，超过了10 GFLOP/s每瓦。这一每瓦GFLOP/s要比CPU或者GPU功效高很多。对比一下GPU，GPU在这些FFT长度上效率并不高，因此，没有进行

3、基准测试。当FFT长度达到几十万个点时，GPU效率才比较高，能够为CPU提供有效的加速功能。图1：Altera StraTIx V 5SGSD8 FPGA浮点FFT性能。总之，实际的GFLOP/s一般只达到峰值或者理论GFLOP/s的一小部分。出于这一原因，更好的方法是采用算法来对比性能，这种算法能够合理的表示典型应用的特性。算法越复杂，典型实际应用的基准测试就越具有代表性。并不是依靠供应商的峰值GFLOP/s指标来确定处理技术，而是使用比较复杂具有代表性的第三方评估。高性能计算理想的算法是Cholesky分解。这一算法经常用于线性代数，高效的解出多个方程，可以实现矩阵求逆功能。这一算法非常复

4、杂，要获得合理的结果总是要求浮点数值表示。计算需求与N3成正比，N是矩阵维度，因此，一般对处理要求很高。实际GFLOP/s取决于矩阵大小以及所要求的矩阵处理吞吐量。表1显示了基于Nvidia GPU指标1.35TFLOP/s的基准测试结果，使用了各种库，以及Xilinx Virtex6 XC6VSX475T，其密度达到475K LC，这种FPGA针对DSP处理进行了优化。用于Cholesky基准测试时，这些器件在密度上与Altera FPGA相似。表1：田纳西州大学的GPU和Xilinx FPGA Cholesky基准测试。LAPACK和MAGMA是商用库，而GPU GFLOP/s是指采用田纳

5、西州大学开发的OpenCL实现的。对于小规模矩阵，后者更优化一些。中等规模的Altera StraTIx V FPGA （460kLE）也进行了基准测试，使用了单精度浮点Cholesky算法。如表2所示，在StraTIx V FPGA上进行Cholesky算法的性能要比Xilinx结果高很多。表2：BDTI的Altera FPGA Cholesky和QR基准测试。应指出，矩阵大小并不相同。田纳西州大学结果是从512512矩阵大小开始的。BDTI基准测试达到了360360矩阵大小。原因是，矩阵规模较小时，GPU效率非常低，因此，在这些应用中，不应该使用它们来加速CPU。在规模较小的矩阵时，FPG

6、A的工作效率非常高。其次，BDTI基准测试是基于每个Cholesky内核的。每个可参数赋值的Cholesky内核支持选择矩阵大小，矢量大小和通道数量。矢量大小大致决定了FPGA资源。较大的360360矩阵使用了较长的矢量，支持这一FPGA中实现一个内核，达到91GFLOP/s。较小的 6060 矩阵使用的资源更少，因此，可以实现两个内核，总共是239=78GFLOP/s。最小的3030矩阵支持实现三个内核，总共是 326=78GFLOP/s。FPGA看起来更适合解决数据规模较小的问题。原因之一是因为计算负载随N3而增大，数据I/O随N2增大，最终，随着数据的增加，GPU的I/O 瓶颈不再是问题。另一项考虑是吞吐量。随着矩阵规模的增大，由于每个矩阵的处理量增大，矩阵每秒吞吐量会大幅度下降。在某些点，吞吐量变得非常低，以至于无法满足很多应用的要求。在很多情况下，会分解大规模矩阵，处理每个小的子矩阵，以解决由于庞大的处理负载造成的吞吐量限制问题。对于FFT，计算负载增加N log2 N，而数据I/O随N增大而增大。对于规模较大的数据，GPU是高效的计算引擎。作为对比，数据长度很短时，FPGA是高效的计算引擎，更适合FFT长度达到数千的很多应用，对于GPU，FFT长度是数十万。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

2 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: FPGA 优化实现复数浮点计算

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：在FPGA上优化实现复数浮点计算.doc
链接地址：https://www.31doc.com/p-3408109.html