AMD重磅发布ROCm 7.9技术预览版!TheRock构建系统彻底重构AI开发底层逻辑
2025年10月20日,AMD官方博客正式发布了ROCm 7.9技术预览版,这不仅是一次常规更新,更是一场针对整个ROCm软件生态的深度重构。本次更新的核心亮点,就是全新推出的“TheRock”(中文可译为“磐石”)构建系统,以及由此诞生的“ROCm Core SDK”——一个专为AI和机器学习工作负载量身打造的精简版ROCm核心套件。
那么,ROCm到底是什么?
简单来说,ROCm(Radeon Open Compute)是AMD推出的开源GPU计算平台,对标NVIDIA的CUDA,目标是让开发者能在AMD的Instinct数据中心GPU和Radeon消费级显卡上高效运行AI、科学计算等高性能应用。自2016年发布以来,ROCm不断壮大,但随之而来的是代码库膨胀、依赖混乱、构建流程复杂等问题——一个改动可能牵涉十几个GitHub仓库,协调成本极高。
为了解决这一“成长的烦恼”,AMD决定“瘦身+重构”:首先推出ROCm Core SDK,只保留运行主流AI工作负载所必需的核心组件,比如HIP运行时、基础通信库、数学库(如hipBLAS、rocRAND、MIOpen)等;其次,彻底抛弃过去依赖一堆Bash脚本的老旧构建方式,全面拥抱TheRock——一个基于CMake的统一超级构建系统。
TheRock到底强在哪?
它最大的创新在于“超级仓库”(Super-Repo)机制。AMD将原本分散在几十个独立仓库中的关键项目,整合进两大核心超级仓库:“rocm-systems”(包含rocminfo、rocprofiler等系统级工具)和“rocm-libraries”(包含hipBLAS、ComposableKernel、MIOpen等数学与机器学习库)。TheRock通过CMake超级项目(Super-Project)统一管理这些子模块的源码、依赖和构建流程,实现“一次配置,全栈构建”。
更令人兴奋的是,TheRock支持增量构建和编译缓存(ccache),配合Ninja构建工具,大幅缩短编译时间。开发者只需一条CMake命令,就能精准指定目标GPU架构(比如MI300X对应的gfx942)、启用特定组件(如仅构建HIP运行时),甚至跨Linux和Windows平台使用同一套工具链。这意味着,无论是想快速验证新功能,还是深度定制ROCm组件,门槛都大大降低。
实测体验更是惊艳!官方演示中,开发者只需在一个Docker容器里,通过pip安装来自AMD夜间构建仓库(如https://rocm.nightlies.amd.com/v2/gfx94X-dcgpu/)的Python包,就能在几分钟内获得一个完整的ROCm运行环境——包括rocm-smi监控工具、HIP编译器hipcc,甚至能直接编译运行“Hello HIP”示例程序。所有文件都隔离在Python虚拟环境中,完全无需污染系统,真正做到“即装即用、用完即走”。
如果你是硬核开发者,TheRock还支持从源码构建。只需克隆TheRock仓库,运行fetch_sources.py拉取全部子模块源码(约17GB),再通过CMake指定目标GPU和组件,即可本地编译出定制版ROCm。构建完成后,还能直接运行ctest进行单元测试,确保功能完整。这种“开发-构建-测试”一体化的体验,过去在ROCm生态中几乎不可想象。
展望未来,TheRock不仅是构建工具,更是AMD推动ROCm生态现代化的战略支点。它将支撑ROCm在2026年全面转向模块化发布模式——除了Core SDK,还将推出面向高性能计算(HPC)、生命科学(Life Science)、数据科学(Data Science)等领域的专用扩展包。同时,TheRock的CI/CD流水线已集成到GitHub Actions中,能自动测试跨组件的兼容性,加速PyTorch、JAX、llama.cpp等主流AI框架对AMD GPU的支持。
值得一提的是,TheRock现已支持AMD全系GPU,包括数据中心级的Instinct MI300系列和消费级的Radeon显卡。这意味着普通开发者也能在自己的游戏本或工作站上,体验ROCm驱动的AI开发,真正打破“只有专业卡才能玩ROCm”的壁垒。
总而言之,ROCm 7.9通过TheRock构建系统和Core SDK的组合拳,标志着AMD GPU软件栈正式迈入“轻量化、模块化、现代化”的新阶段。它不仅解决了历史技术债,更为未来AI生态的快速迭代打下坚实基础。对于所有希望摆脱CUDA垄断、探索异构计算新可能的开发者来说,这无疑是一个重大利好。