高性能AI算力池是依托威九多年研发与运营超大规模AI超级计算集群经验,打造的高性能、弹性扩展、安全稳定、智能调度的AI算力平台,大幅提高算力资源的利用率及AI应用的效率,助力AI业务增长。
分布式部署,通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展
极致的硬件配置和最佳的调度优化,带给AI模型训练最有效的算力供应
基于云原生技术,降低AI开发者的使用门槛;轻松解决 AI 开发人员面临的训练模型中 GPU/CPU 配比和多机多卡模型拆分等问题
支持TensorFlow、PyTorch训练框架、MPI方式的单机和分布式训练任务以及各种角色的配置,支持按需创建训练任务以及管理任务各种状态操作;提供多种调度策略满足各种任务的高效低成本诉求;
通过 RDMA(IB/RoCE)或 TCP/IP 网络连接各个节点,实现资源池弹性扩展;
提供多种任务资源、业务指标的监控和日志服务,满足算法工程师在调试过程中运维诉求。
深度学习定制存储、网络、计算以及任务调度器,配合丰富辅助的调试、可视化工具,带来高效、开发者友好的深度学习训练体验;
深度学习定制存储、网络、计算以及任务调度器,配合丰富辅助的调试、可视化工具,带来高效、开发者友好的深度学习训练体验。
专业的AI解决方案、先进的AI产品助力您的业务实现新的突破