高性能计算集群如何工程化

随着人工智能的发展,高性能服务出现在工程师的日程上,模型训练可谓热火朝天,但是问题也就此而来:资源分配和任务调度缺乏统一管理,无法及时获悉任务执行情况,造成资源浪费;资源占用不能直观监控,不能及时获知服务性能情况;每次跑模型任务都需要安装依赖软件,算法工程师还需要维护服务环境,精力浪费在核心工作之外;甚至部分数据从线下环境操作,数据安全也是一大隐患等。

继续阅读