租云服务器做深度学习实验的个人推荐流程
在数据盘里新建家目录和用户
理由:数据盘读写数据快,装环境也快。所以想把Anaconda直接装进数据盘中。
创建新用户
以恒源云为例,别的云服务器找到对应的数据盘位置进行同样的操作就好,替换用户名为你自己想起的。
1 | mkdir /hy-tmp/home |
第一行代码是为了在数据盘下的文件夹创建一个名为/home的文件夹
第二行代码中,/hy-tmp/home/lyc 是新用户的主目录路径,lyc 是新用户的用户名。
接着为新用户设密码
1 | sudo passwd lyc |
##为新用户赋予管理员权限
在root身份下,使用以下命令将新用户添加到 sudo 用户组
1 | sudo usermod -aG sudo lyc |
我会再进行一道操作:执行以下命令打开sudoers文件:
1 | visudo |
在文件中以下位置添加以下行:
1 | # User privilege specification |
这里需要一些linux的vim基础知识。按i,进入编辑模式,编辑后按 :wq 保存并退出。注意英文字符。现在用户lyc就具有管理员权限了。
验证管理员权限是否赋予成功
1 | groups lyc |
输出中应该包含 sudo 组。有就成功了。成功之后你就可以使用自己创建的用户和密码登录你的服务器。
补充一些Linux常用命令
1 | (1) ctrl c: 取消命令,并且换行 |
登录后可能遇到的问题
接下来的操作建议使用自己新创建好的用户登录后操作
如果遇到文件夹cd不让访问,就给文件夹增加读写权限:
1 | sudo chmod -R 755 /path/to/folder |
chmod 命令更改目标文件夹的权限为 755,其中 7 表示用户拥有读、写和执行权限,5 表示组和其他用户拥有读和执行权限。
如果遇到权限问题 Permission denied,就在命令的前面加sudo,如
1 | sudo chmod 755 /root/ |
Nvidia显驱安装
租的服务器一般都装好显驱了,如果你执行
1 | nvidia-smi |
有输出,你就可以跳过这一部分,否则的话,参照:Ubuntu安装显卡驱动详细步骤_apt install nvidia-driver-415_李老板Holden的博客-CSDN博客
Anaconda安装
这里可以参照https://blog.csdn.net/m0_62033123/article/details/126673745
简单来说,先去自己的用户目录下:
1 | cd: /hy-tmp/home/lyc |
第一步使用wget下载:
1 | wget https://repo.anaconda.com/archive/Anaconda3-2022.05-Linux-x86_64.sh |
下载之后,在对应目录使用如下命令安装
1 | bash Anaconda3-2022.05-Linux-x86_64.sh |
安装过程就是一路回车一路yes。
提示安装成功后,会有个Anaconda文件夹,用自己的用户重登一下服务器或者执行:
1 | source .bash |
应该就能看到你的命令行前面多了(bash)了。这意味着你跑的代码将会在bash环境下的python执行。
Pytorch安装
如果你只是用pytorch跑代码,不使用tensorflow。可以不安装cuda,直接安装pytorch。这是因为安装pytorch的同时会安装cudatoolkit
使用conda创建自己的虚拟环境
虚拟环境一般和项目名有关:
1 | conda create -n xray python=3.7 |
现在应该从base环境进入到你新建的环境中了。
在自己的虚拟环境中安装pytorch
这里内容可以参照:https://blog.csdn.net/gg864461719/article/details/112259806
在这里找到对应版本,并使用镜像下载。
以Pytorch1.7为例:
1 | conda install pytorch==1.7.1 torchvision==0.8.2 torchaudio==0.7.2 cudatoolkit=11.0 |
注意,30系显卡CUDA只能选择11.0以上的版本
安装依赖包
激活自己的环境后,可以在自己的环境下安装对应的依赖包。
命令格式:
1 | pip3 install keras==2.3.1(推荐pip3,貌似快一点) |
运行
通过云服务器推荐的方式上传自己的项目后,推荐使用命令行执行代码
先激活自己的环境,找到自己要运行的代码。cd进去。就可以先直接运行检查代码能否正常运行:
1 | python train.py |
如果确认过代码所需依赖都安装了,并且没bug,推荐后台运行:
1 | nohup python -u train.py > XXX.log 2>&1 & |
代码执行的信息会保存到XXX.log文件中。