机器学习相关笔记
本文介绍了TensorFlow等机器学习相关的笔记
目录
Win下CUDA驱动的安装
先弄清楚机器学习框架所需求的cuda,cudnn的版本,查找CUDA和GPU驱动的对应关系,别下错了
先安装CUDA,安装完了下载对应版本的cuDNN,解压后覆盖到C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v11.6
装CUDA驱动的时候可以除了CUDA Runtime,其他都不选
Debian下CUDA驱动安装
禁用Nouveau
1 | nano /etc/modprobe.d/blacklist-nouveau.conf |
添加内容
1 | blacklist nouveau |
生效
1 | update-initramfs -u |
安装依赖
1 | apt-get install software-properties-common |
安装cuda和cudnn
1 | apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/debian11/x86_64/3bf863cc.pub |
PS:安装完cuda驱动就不用再安装GPU驱动了
Pytorch相关
一般安装
在Pytorch官方仓库寻找dnn版,例如
1 | torch-2.0.0+cu117.with.pypi.cudnn-cp39-cp39-linux_x86_64.whl |
旧版本安装
参考INSTALLING PREVIOUS VERSIONS OF PYTORCH
1 | pip install torch==1.8.1+cu101 torchvision==0.9.1+cu101 torchaudio==0.8.1 -f https://download.pytorch.org/whl/torch_stable.html |
N卡测试
1 | import torch |
Mali相关
安装llvm
在https://github.com/llvm/llvm-project/releases中自行下载
解压:tar -xvf clang+llvm-XXX-aarch64-linux-gnu.tar.xz,建议放在/usr/local里
安装mlc-ai
安装编译环境
1 | apt install g++ zlib1g-dev -y |
下载文件
1 | git clone --recursive https://github.com/mlc-ai/relax.git tvm_unity && cd tvm_unity/ |
配置编译文件
1 | cd tvm_unity/ |
开始编译tvm
1 | cmake .. |
注:编译出错是由于内存不足,再次编译即可,8GB是够的
安装库
1 | cd ../python |
编译完成后安装即可
编译好的tvmc在/usr/local/bin,使用tvmc命令测试即可
安装mlc-llm
下载文件
1 | git init |
1 | cd /mlc-llm/ |
编译完成后安装即可
测试:python3 -m mlc_llm.build –help
安装OpenCL驱动
下载mali_csffw.bin,放入/lib/firmware中
下载libmali-valhall-g610-g6p0-x11-wayland-gbm.so,放入/usr/lib中
安装依赖
1 | apt update |
置入ICD
1 | mkdir -p /etc/OpenCL/vendors |
测试:clinfo
安装rust: apt install rustc cargo
验证:rustc --version
TensorFlow
如果有RT核的GPU可以安装TensorRT
必须安装cudnnapt-get install libcudnn8,建议到仓库自己找再本地安装,否则无法启用GPU
安装(tf2不再使用GPU)
1 | python3 -m pip install tensorflow |
测试
1 | import tensorflow as tf |
修复
1 | cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node |
如果结果是-1,那么执行
1 | echo 0 | tee -a /sys/bus/pci/devices/0000\:01\:00.0/numa_node |
检查是否成功
1 | cat /sys/bus/pci/devices/0000\:01\:00.0/numa_node |