合作咨询
作为人工智能“三驾马车”之一,高效智能的计算能力对 AI 技术的演进至关重要。如何针对不同 AI 数据场景下,实现计算效率的提升,是各大计算技术研究机构、云厂商以及相关开源社区的研究热点。
12 月 8 日-9 日,第 2 届数据编排峰会(DATA ORCHESTRATION SUMMIT 2020)将在线上召开。在为期两天的开源社区会议中,大会将围绕如何基于最新的开源技术,如Alluxio、Apache Spark、Apache Airflow、Presto、TensorFlow、Kubernetes 等,构建云原生或混合云数据和 AI 平台这一话题展开讨论,并重点关注其中关键性数据工程方面的挑战和解决方案。
本次峰会的演讲嘉宾邀请到诸多云、数据和 AI/ML 等领域富有远见的专家学者,包括来自加州伯克利大学的 Apache Spark 创始人 Ion Stoica 教授,英特尔 CTO Parviz Peiravi 以及 Alluxio 创始人李浩源博士。同时,来自云知声、阿里巴巴、Comcast、Electronic Arts、Facebook、Google,京东和腾讯等公司的技术专家也将先后带来精彩的技术报告,分享业界领先的数据架构、现实案例、现场演示以及从业人员最佳实践。
云知声很早就开始布局建设业界领先的 GPU/CPU 异构 Atlas 计算平台和分布式文件存储系统,该计算集群可为 AI 计算提供高性能计算和海量数据的存储访问能力,在公司向 AI 多领域技术横向扩展和纵向迭代中发挥了至关重要的作用。
本次峰会,云知声作为国内唯一受邀 AI 公司将带来名为“Speeding Up In Atlas Deep Learning Platform with Alluxio+Fluid”的分享,系统阐释云知声在人工智能基础建设与云原生原创技术领域的创新发展路径。
本次分享中,针对目前深度学习训练平台非结构数据训练过程中 I/O 瓶颈问题,云知声提出在存储层和计算层引入 Alluxio 缓存层的解决方案,技术团队通过和 Alluxio、阿里巴巴以及南京大学合作开源项目 Fluid 对Alluxio 缓存引擎进行统一的编排管理。架构图如下图所示:
在新架构的加持下,三种典型 AI 非结构化数据类型:大文件、中等文件和海量小文件均取得大幅的加速效果。针对海量小文件语音降噪任务、以及大文件 OCR 任务加速效果如下。其中,在海量小文件训练场景中,读取缓存相对于直接读取底层存储平均增速 10 倍。
在大文件场景,在训练任务早期阶段,读取缓存相对于直接读取底层存储平均有 30 倍的加速效果,当数据集全部加载到内存时,两者速度基本一致。
在加速训练的同时,新架构可以大幅度减少 I/O 带宽的占用并进一步提升 GPU 使用率,针对海量小文件降噪任务、以及大文件 OCR 任务 I/O 占用及 GPU 使用率如下:
在海量小文件训练场景中,读取缓存相对于直接读取底层存储计算节点 I/O 由 230Mb/s 下降到 0Mb/s,表明海量小文件训练前已全部加载到缓存中,训练过程中无需占用 I/O;GPU 平均使用率由 82.76% 提升到90.24%,表明消除 I/O 瓶颈可以提高海量小文件训练资源使用效率。
在大文件训练场景中,提前预热相对于读取底层存储到缓存,计算节点 I/O 由 1300Mb/s 下降到 0Mb/s,表明海量小文件训练前已全部加载到缓存中,无需占用I/O;读取缓存相对于直接读取底层存储计算节点 GPU平均使用率由 69.59% 提升到 91.46%,表明消除 I/O 瓶颈可以提高大文件训练任务资源使用效率。
针对不同的数据场景,基于 Fluid 和 Alluxio 缓存加速引擎已经在 Atlas 计算平台进行充分验证。不但缓解了集群 I/O 压力,而且极大的提高了模型训练的速度以及 GPU 使用效率,为实现 AI 算法的快速验证和迭代奠定计算基础。
云知声在实现内部计算平台技术迭代的同时,也积极参与和拥抱开源社区,是 KubeFlow、Istio、Fluid 社区的积极关注和贡献者,为开源社区技术进步贡献自己的力量。
截止 2020 年,Atlas 计算平台已经超过一亿亿次每秒的浮点计算能力,为在人工智能新领域的拓展奠定了强大的计算资源基础。通过协同利用 AI 底层计算平台资源,也支撑起云知声从语音识别、语义理解到机器翻译、计算机视觉等多维人工智能技术领域的持续快速突破。
大会直播入口:
https://www.alluxio.io/data-orchestration-summit-2020/