如何使用TensorFlow实现人工智能？.doc

上传人：白大夫

文档编号：3421520

上传时间：2019-08-23

格式：DOC

页数：5

大小：19.50KB

《如何使用TensorFlow实现人工智能？.doc》由会员分享，可在线阅读，更多相关《如何使用TensorFlow实现人工智能？.doc（5页珍藏版）》请在三一文库上搜索。

1、如何使用TensorFlow实现人工智能？电信营业厅 APP 作为中国电信在线服务的入口级应用，我们的开发团队通过 TensorFlow 与人工智能 AI 技术有了亲密的接触。人工智能这个领域我们以前从未探索过，甚至参与项目开发的工程师都是由 Android 开发转型而来，所以本文将以机器学习小白的视角谈一谈我们如何使用 TensorFlow 实现人工智能，以及我们的心路历程。为了提升体验，让用户在充值这个最常用功能中感受一下所谓的黑科技，我们在 2016 年启动了充值卡扫描项目，希望用户打开摄像头对准充值卡密码轻松一扫即可完成充值。其核心 OCR 识别算是比较古老的研究领域，充值卡密码是数字

2、加空格的组合，想想应该不难。我们当时使用的方案，大概如下图的过程：最终效果当然是不太理想，充值卡与名片文档不同，密码区域刮开的大小因人而异、噪点非常不规则、扫描时手的抖动会增加错误的发生等等因素，加上我们没有在 OCR 领域的经验积累，最终没能达到良好的用户体验而不得不搁浅。但是在随后的日子里，我们与 TensorFlow 结下了不解情缘。在 2017 年谷歌开发者大会上我们了解到，谷歌人工智能底层的技术已经开源化，TensorFlow 的推出是为了让普通开发者将关注点从 “如何造轮子” 转移到 “轮子的花纹和样式” 上来，现场由谷歌工程师 Anna 全程用中文为大家介绍这个框架，她的演讲很赞

3、，为了不错过每一个细节我听得很仔细很投入。从大会回来之后，我们推翻重来并改变了思路：搭建一个神经网络让它学会认识电信充值卡。end2end learning：神经网络思想给我们带来了彻底的改变，所谓 end2end 模型是要通过这个模型输入图片直接获得结果数字。这种方式，不再需要手工处理图片的特征，任何部分的误差，都作为整体的一部分，通过神经网络的反向传播都能得到修正。seq2seqlearning：seq2seq 是一种 EncoderDecoder 结构的网络，它的输入是一个序列，输出也是一个序列， Encoder 中将一个可变长度的信号序列变为固定长度的向量表达，Decoder 将这个固

4、定长度的向量变成可变长度的目标的信号序列。这种结构的神经网络常用于语音识别，也可以用于不定长文字的 OCR 识别。对于我们的项目而言 Encoder 输入是 200*30 大小的图像，Decoder 是可变长度的数字加空格组合。神经网络搭建：CNN+LSTM+CTC这是个成熟且先进的神经网络架构，我们在分析学习了许多科学界论文后选定了这个方案，CNN 卷积神经网络负责抓取图片特征，LSTM 长短期记忆网络负责对字符的识别，CTC 算法对结果进行对齐优化。这个方案有很多优秀的TF项目可以参考，使用 TF 实现其网络结构也非常方便，这使我们更快更容易的着手开发工作。在我们刚接触神经网络的时候，看到

5、某位大神曾经说过 “深度学习框架是一个炼丹炉”，这句话形容的恰到好处，使我们更直观的理解机器学习的过程，如今我们已经有了这炼丹炉和配方（TensorFlow、网络结构方案），下一步的关键是数据。数据的质量和数量直接影响模型的识别效果，由于没有足够的实体卡样本，我们使用程序模拟需要的图片，要尽量做得真实、包含尽可能多的特征才行。先从一张简单的充值卡入手，我们的取景框将焦点缩小到 200*30 这么大的区域里：通过不断训练、对比模型识别识别结果，将模型没有学习到的特征加入进来，我们得到了下面的数据优化路线：基础版本：倾斜、变形、位移：不同的字体：模拟未干净效果，加入随机噪点：强光：弱光：抖动模糊：

6、以上特征随机组合出现，且力度在一定区间内随机取值，生成的训练数据集 30 万，测试数据集 1 万：接下来是机器训练的过程，这个阶段最磨炼心性，机器在学习人也在成长。分享一点心得：1、我们能够总结这段经验是源于上百次的训练记录，详细记录每次训练的笔记是一个好习惯。2、每次只调整网络参数或只修改数据特征，这样方便比较结果。3、善于运用TensorBoard使你更直观的查看网络结构，了解训练过程。我们保留了 TB 的全部训练日志，通过训练曲线对比不同超参数对训练结果的影响是非常方便的。最后是方案的选型，我们一开始青睐于 TF Lite 的小巧、灵活，但是当时 TF Lite 还不支持 LSTM 算子

7、，将来我们会再尝试使用 TF Lite，因为端侧人工智能应该是未来的主流。考虑到我们的图片只有 200*30 的像素大小，实际传输不太消耗网络，所以 TF Serving 作为最终方案，实际上效果也确实不错。方案TF LiteTF MobileTF Serving 优点1、体积小：大概 300K。1、支持全部神经网络算子。2、性能优秀。1、客户端轻量操作。2、一切云端可控制，包括模型更新等。3、支持高并发访问缺点1、当时缺少 LSTM 算子1、体积较大，估计 AndroidSDK大概 5M 左右。2、需考虑模型更新方案。3、需考虑适配，安卓低版本机器不支持。1、识别性能受网络速度影响。最终的

8、效果：逆光、抖动、数字严重遮挡依然可以轻松识别！模型训练的成功率为 99.3% ，完成一次识别的耗时 0.05 秒，达到这样的效果，让我们非常惊喜、兴奋！用户体验之后反响也非常不错！能够做到这些得益于优秀的 TensorFlow 机器学习框架、先进的神经网络解决方案，这让我想起 2007 年刚接触 Android 系统时的感受：不再需要考虑设备底层代码的编写极大的降低了开发者的门槛，正如今天 TF 带给我们的一样，入门级玩家也可以使用人工智能技术。最后向一直坚持做机器学习的开发者们致敬：你们的坚持和分享精神使我们更快的掌握和使用这项技术，相信在我们共同努力下人工智能领域将不断突破，正如这条曲线一样历经磨练守得云开见月明。

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

2 元

下载	加入VIP免费专享

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 如何使用 TensorFlow 实现人工智能

三一文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：如何使用TensorFlow实现人工智能？.doc
链接地址：https://www.31doc.com/p-3421520.html