助力转型:GPU如何完成曾经不可能完成的分析工作

奋斗的疯子 2021-08-09 15:21:20 3773

最新版本的Cloudera Data Platform采用通过NVIDIA技术加速的Spark 3.0,能够帮助操作团队实现8倍性能提升,从而成功运行一项原本不可能完成的工作。

Deborah Tylor凭借坚持不懈的精神以及正确的的工具,完成了一项原本不可能完成的任务。

作为一名数据科学家,Tylor的任务是整理美国国家税务局超过300 TB的数据库,寻找可能有助于识别身份盗窃和其他欺诈行为的规律。但即使她让一大批CPU服务器工作了一整夜,也无法完成这项数据整理工作。

她在早上回来时发现这项工作失败了,于是她再次尝试,但再次失败了。

就在这时候,Cloudera的解决方案工程师Nasheb Ismaily敲开了Tylor的老板——Rahul Tikekar的门。Rahul Tikekar是美国国税局数据分析师技术支持团队的经理。Ismaily询问Tikekar的团队是否需要使用自带GPU加速Apache Spark 3.0软件的Cloudera Data Platform(CDP)。

Tikekar表示:“我抓住了这次机会。虽然我们的独立服务器配备了NVIDIA显卡,但我们却无法在分布式集群上使用Spark来运行它们,所以这对我们来说是一个绝佳的机会。”

突破障碍

对软件进行快速测试后,在没有修改任何代码的情况下,Tylor在这项工作中的许多步骤就立即加快了5倍,但有几个部分仍然滞后。

Ismaily召集了NVIDIA数据科学家团队来检查代码的核心内容。他们很快就发现一些数据结构非常糟糕的任务仍在CPU上运行。于是他们编写了代码来处理这些工作并将其插入Spark的RAPIDS软件接口中。RAPIDS是一个在GPU上运行数据分析的开放资源库。

Tylor又进行了一次测试,结果发现一切都能在分布式Spark集群的GPU上顺利运行,而且速度提升非常明显。她在一个四节点的集群上运行了整个程序。

美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi表示:“通过Cloudera和NVIDIA的这一技术整合,我们能够利用以数据为依据的洞察来推动关键任务用例。”

“我们目前正在应用这一技术整合,这使得我们的数据工程和数据科学工作流程以一半的成本获得了超过10倍的速度提升。” Ansaldi补充道。

Spark 3.0 + GPU = 新视野

美国国税局团队正在探索这项技术应用可能带来的一些回报。

凭借由GPU驱动的服务器所组成的Spark集群,该团队能够加速目前所有的工作并运行其他以前被认为不可能实现的工作。并且这些工作可以帮助该团队处理他们所掌握的大数据集。

Tikekar表示:“在Spark 3.0之前,我们不可能完成这些工作,但现在我们通过GPU大幅提升了速度并且可以期待以此解决之前无法解决的问题。”

绘制AI路线图

该团队计划把其成功经验运用在数据准备,也就是数据分析中的提取/转换/加载(ETL)方面的工作上。下一步重大计划是加速各类AI推理工作。

Tikekar表示:“与Cloudera和NVIDIA的这一合作帮助我们能够在集群中驾驭GPU。当出现此类技术进步时,需要一段时间来认识它们的力量并开发可以使用它们的应用,所以Deborah Tylor确实为我们制定了新的路线图——她是整件事中的主角。”

具体而言,该团队接下来致力于通过建立大型深度学习神经网络来进行自然语言处理和分析。

丰富的机器学习应用

这正是许多企业今天在寻求的机器学习转型。

“我个人认为机器学习具有令人难以置信的潜力,使过去难以实现的事情成为可能。”Tikekar表示。作为一位计算机科学博士,他于13年前加入国税局,此前曾在南俄勒冈大学任教十年。

“例如,现在我们可以扫描表格,然后使用光学字符识别来阅读其中的片段。但有了AI之后,我们可以更加高效地阅读表格并找到有助于识别身份盗窃或减少浪费的规律。很多应用在许多方面都受益于AI。” 他补充道

来源: NVIDIA英伟达

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
红包 94 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
奋斗的疯子
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区