a卡跑深度学习

2
回复
99
查看
[ 复制链接 ]

1

主题

1

回帖

23

积分

新手上路

积分
23
2025-10-21 23:25:23 显示全部楼层 阅读模式
本帖最后由 hailong 于 2025-10-21 23:31 编辑

作为一个搞深度学习开发的人,第一时间就盯上了这张AI395。

没有其他原因,就是显存够大。下面以mmdet(目标检测框架)和玲珑星核为例,盘盘踩的坑!!!
https://rocm.docs.amd.com/projec ... n/latest/index.html是amd官方文档

第一,请使用ubuntu环境。在windows下,如果你要编译安装(build form source)自带cuda算子加速的一些git项目(e.g mmcv)会失败。请一定使用linux环境。因为win下面的rocm是通过hipcc实现的,在编译的时候会调用rocm_sdk_core。这个东西是没有gcn扩展包的。等一波AMD更新,在windows下有rocm_sdk_full可能就可以了。如果你的框架没有用到算子,可以使用windows环境,直接调用在星核的envmain的python创建虚拟环境。
(PS,你问能不能装CPU版本的MMCV,我表示装的时候他能发现你有cuda。大佬们可以试试怎么装CPU版本的)

第二,不能使用WSL。如果你是radeon卡就可以,ryzen卡不行。详情请看官方文档兼容性表格。具体原因是WSL内核不是6.14版本的,而且是windows固定的。如果有大佬能升级内核,请在评论区留言。

第三,安装版本。我装的是24.04版本,内核直接是6.14.如果你不是,请升级。

第四,ROCM。星核自己就有,如果你要下载,参考官方文档。

第五,然后随便装个conda来管理环境,不要用星核的环境。不然装库的时候会干扰。如果有大佬能解决这个问题,基本就没有其他问题了!!!

第六,pytorch。这也是个坑!千万不要按照官网的方式安装python3.12版本的pytorch。请用python3.11版本的。路径为https://repo.radeon.com/rocm/manylinux/rocm-rel-7.0/。相关包名字为torch-2.8.0+gitc497508-cp312-cp312-linux_x86_64.whl
torchaudio-2.8.0+rocm7.0.2.git6e1c7fe9-cp312-cp312-linux_x86_64.whl
torchvision-0.23.0+rocm7.0.2.git824e8c87-cp312-cp312-linux_x86_64.whl
triton-3.4.0+rocm7.0.2.gitf9e5bf54-cp312-cp312-linux_x86_64.whl。

第七,安装你的mmdet。直接照着mmlab教程安装。请用镜像源https://mirrors.aliyun.com/pypi/simple/,不然太慢了。

第八,运行demo程序。现在torch2.6以上模型加载的时候torch.load会报错。请在后面加上weights_only=false.变为torch.load(~~~~~~,weights_only=false)


本来放了点图,但是超字符了。大家凑合看把!!!


收藏
送赞
分享

4

主题

2

回帖

22

积分

超级版主

积分
22
2025-10-21 23:32:54 显示全部楼层
支持一下

1

主题

1

回帖

23

积分

新手上路

积分
23
3 天前 楼主 显示全部楼层
文中包名字是错误的包名字,正确的是pytorch_triton_rocm-3.4.0+rocm7.0.0.gitf9e5bf54-cp311-cp311-linux_x86_64.whl torch-2.8.0+rocm7.0.0.git64359f59-cp311-cp311-linux_x86_64.whl     torchvision-0.23.0+rocm7.0.0.git824e8c87-cp311-cp311-linux_x86_64.whl   torchaudio-2.5.0+rocm7.0.0.git56bc006d-cp311-cp311-linux_x86_64.whl
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则