研究显示,AI工程化落地过程中,出现痛点从高到底依次是资源利用率、大模型落地、分布式训练效率、推理效率、国产化、异构芯片调度。其中,资源利用率出现频率接近后面五名的总和。深挖痛点,其背后是资源分配不均衡、资源规划不合理、资源碎片多的问题。
为了解决以上问题,可以引入云原生加存储资源盘活的组合解决方案。
云原生(Cloud Native)是构建应用程序一类技术的统称,也是面向“云”而设计的应用,在使用云原生技术后,开发者无需考虑底层的技术实现,可以充分发挥云平台的弹性和分布式优势,实现快速部署、按需伸缩、不停机交付等。通过云原生技术可以构建出可弹性扩展的应用程序,这些应用程序可以被运行在不同环境当中,比如公有云、私有云、混合云等新型动态环境中。利用云原生技术,形成以容器服务为核心,以云原生技术作为基础架构的AI工程解决方案,无缝的整合了云的计算、负载均衡等服务,同时贯穿了AI任务的全生命周期。但是,如何有效支撑各种云主机应用与微服务应用,对于存储系统提出了很大挑战。随着容器、微服务平台的大规模应用,快速开发迭代、发布频繁对于存储系统的弹性支撑能力提出了严峻挑战,且不同的业务数据保存在计算节点本地或者不同的外部存储设备中,数据流动性差,不仅导致存储空间及性能资源浪费严重,数据灾备方案难以统一。
存储资源盘活系统(Storage Resource Reutilization System,SRRS)是一种新型的软件定义存储方式,是纯软件纯用户态的存储控制器,可以部署在物理服务器、裸金属服务器、虚拟机等任何现有系统上。通过存储资源盘活技术可以将全部存储资源与存储碎片整合为统一的高性能高可用资源池,这个资源池向下兼容x86和ARM等不同的架构,以及不同CPU、内存和硬件配置;向上支持最新的容器生态,全面兼容Kubernetes CSI,可通过CSI接口支持适用于容器的可动态创建的持久化存储。与硬件驱动程序完全解耦,减少了部署成本的同时加强了弹性扩展能力。
存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源的利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。存储资源盘活系统作为一组用户态进程来运行,不依赖于任何特定版本的Linux内核或Linux发行版,不依赖或修改操作系统环境,不垄断整个硬盘驱动器,不干扰任何其他进程的执行。因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI“耗电高”的痛点。存储资源盘活系统是高性能的。存储资源盘活系统采用分布式双控制器架构,像传统硬件存储阵列一样提供低延迟和高可用性,像传统分布式存储一样提供高可扩展性和高吞吐量。它可以轻松从3台服务器扩展到数千台服务器,并逐个从数千台服务器减少到3台服务器,上述过程中不会出现服务不可用的情况。对于AI行业中训练样本、模型参数的指数级增长,存储资源盘活系统可以自如应对。
使用云原生加存储资源盘活的组合解决方案,管理员可站在集群的全局视角对集群中的各种资源进行合理的配额管理。AI任务调度时,将根据集群的全局视角,选择最优资源节点来进行调度。可高效地对接私有云中各种存储资源,降低AI工程化的基础架构层管理运维成本,解绑硬件锁定,消除数据孤岛,全面提升AI资源利用率,解决AI工程化落地过程中资源分配不均衡、资源规划不合理、资源碎片多的问题。
文章评论