使用VSCode设置Python作为数据科学开发的10个步骤 - Gong Na


当我开始第一个专业数据科学项目时,使用了许多工具:用于模型训练的Jupyter Notebook,用于结构化Python脚本的PyCharm(免费社区版本),用于python软件包管理的Anaconda Prompt,用于远程SSH连接的MobaXterm,用于原始数据的Excel评论等等。每天,我总是在不同的窗户之间跳来跳去。
幸运的是,我找到了一个支持上述所有功能的工具,最重要的是,它是免费的:VSCode。
如果您遇到与上述相同的问题,或者您是 数据科学领域的初学者,则本指南可以帮助您建立自己的有效数据科学工作区并有一个良好的起点。
完成10个设置步骤后,在VSCode的单个窗口中,您将能够:

  • 可使用Anaconda
  • 可编写结构化且可读的python脚本
  • 可使用Jupyter Notebook
  • 管理python软件包和conda虚拟环境
  • 通过具有非常友好的用户界面的SSH在远程服务器(例如GPU节点)上工作
  • 查看和编辑不同类型的文件(例如.txt,.csv,.xlsx,.png,.md,.yml,Dockerfile…)
  • 使用Git版本控制
  • 对将来的项目扩展保持灵活性,例如添加基于Docker的部署

十个步骤:
步骤1:安装Anaconda 
步骤2:(可选)在Anaconda提示符下创建Virtualenv 
步骤3:打开VSCode 
步骤4:从VSCode打开项目文件夹
步骤5:在VSCode中安装Python扩展
步骤6:在VSCode中启用Virtualenv 
步骤7:为“ conda”和“ python”配置VSCode终端
步骤8:在VSCode中启用Jupyter Notebook 
步骤9:通过SSH从VSCode连接到远程服务器
步骤10:在VSCode中进行Git推送

步骤1:安装Anaconda
安装最新版本在这里,如果你要使用VSCode集成终端,我强烈建议你安装的版本≥4.6。成功安装后,您还安装了Jupyter Notebook,Python和一些常用的python软件包,以用于数据科学。现在,您可以在开始菜单中找到Anaconda Navigator,Anaconda提示,Jupyter Notebook图标。

步骤2 :(可选)在Anaconda Prompt中创建虚拟环境
为了避免不同项目之间的相互干扰,最好在隔离的虚拟环境中进行开发。如果您真的想在默认环境中进行开发,则base可以跳过此步骤。

步骤3:开启VSCode
选项1:打开Anaconda Navigator>从主页启动VSCode。
选项2:您也可以从网站安装VSCode 。这样,您可以获得快捷方式,然后从桌面或任务栏快速启动VSCode。根据我的经验,这种方法比方法1更快。

步骤4:从VSCode打开项目文件夹
在您喜欢的任何位置创建一个新的项目文件夹作为您的根目录。打开VSCode>单击左上角的文件 >单击打开文件夹 >单击目标文件夹名称。现在,您可以将所有项目文件和脚本放在此处。

步骤5:在VSCode中安装Python扩展
VSCode是支持多种语言的源代码编辑器。为了启用Python,我们需要安装Python扩展。
单击左侧栏中的扩展图标>搜索Python >单击安装。现在,您可以简单地使用.py文件扩展名创建标准的python脚本。

步骤6:在VSCode中启用Python环境
在VSCode中,按ctrl+shift+p,一个命令面板将在顶部中间弹出。单击Python:选择“解释器Interpreter ”>,只需输入Python的安装路径:如C:\install\Python\Python38-32\python.exe,如果安装了Anaconda,可从其目录中选择:
python Interpreter将显示在状态栏的左下方。

步骤7:将VSCode终端配置为“ conda”和“ python”
通过单击菜单栏的“终端”或快捷方式ctrl+shift+`,终端将在下方打​​开。
如果您想像我一样在Windows上使用Linux命令,那么Powershell是您的理想选择。(conda很难激活,可点击标题见原文)

步骤8:在VSCode中启用Jupyter Notebook
需要将Python的Scripts目录加入windows的环境变量path中,在cmd下执行:

pip install jupyter 
#或conda 
install -c conda-forge jupyter

创建新的jupyter笔记本文件:按下ctrl+shif+p>搜索“ Create New Blank Jupyter Notebook” >单击它> .ipynb使用untitled名称保存创建的文件。
几秒钟后,右上方的Jupyter Server将自动设置为local.

其余两个步骤比较通用,可点击标题见原文,下面附加远程连接开发:

设置VS通过SSH从Windows到Linux系统进行远程开发
为什么我们需要远程开发:

  • 对于软件开发人员,他们通常在本地开发新功能,然后在远程服务器上进行测试。
  • 对于数据科学家而言,他们需要额外的计算资源(例如远程GPU节点)来支持大数据处理。
  • 对于DevOps工程师来说,他们的主要任务之一是在不同的服务器上部署不同的产品,这需要频繁的远程配置。

先决条件:
在本地Windows和远程Linux系统上都安装了OpenSSH。在这里为Windows安装和这里的Linux版本。

  • 步骤1:在VS Code中安装Remote-SSH扩展:启动VS Code->单击左侧栏中的扩展图标-> 在搜索框中搜索Remote-SSH- >安装,左下方状态栏最前面看到一个小的远程连接图标
  • 步骤2:在PowerShell中验证SSH连接:在PowerShell中执行ssh username@hostname来验证SSH连接。
  • 步骤3:在VS Code中启用远程连接:单击左下角的远程连接图标->选择“ 远程SSH:打开配置文件…”。
  • 步骤4:生成SSH密钥对:在VS Code Powershell终端中,执行以ssh-keygen命令,您的密钥对存储在默认的隐藏~/.ssh目录中
  • 步骤5:将公钥复制到远端伺服器:通过VS Code或任何其他带有密码的终端登录到远程服务器。检查authorized_keys文件是否在~/.ssh目录下。