首页 文章

我应该为我的Google Cloud VM选择什么磁盘映像,以便pandas可以像在Mac上一样工作?

提问于
浏览
0

我跟着handy tutorial设置了一个带有数据科学库和Debian GNU / Linux 9磁盘映像的Google Compute Engine VM实例 . 我在我的本地机器上运行了一个数据探索笔记本,发现 pandas.read_csv() 搞砸了我的训练数据的导入 .

正确导入,数据集是一个带有一列('text')的pandas数据框 . 该列中的3000个条目中的每一个都是来自生物医学文献语料库的文章 . 然而,VM上发生的是应用了一些长度阈值,并且pandas将给定文章的一部分分流到数据帧的新行 . 它对大多数但不是所有文章都这样做,数据框最终有近6000个条目 . 更重要的是,尝试训练模型是没用的 .

我使用Vagrant克隆了我的本地环境,但看起来可能很难将我的磁盘映像放入Google Cloud并进行优化 . 所以,我想我先在这里查看是否有人知道更简单的解决方案,比如选择与Debian / Linux不同的机器类型来设置我的Compute Engine实例,以便pandas功能正常工作 . 感谢您的输入!

1 回答

  • 0

    登录到默认使用Debian / GNU Linux的Google Cloud VM实例后,您可以使用以下常规:

    sudo apt-get update
    sudo apt-get install python-pandas
    

    否则,如果您更喜欢使用pip安装程序,那么它也适用:

    sudo apt-get update
    sudo apt-get install python-pip
    

    然后你可以安装其他PyPi库,比如pandas sudo pip install pandas 请记住,如果你想为Python 3.x安装库,请在上面的代码片段中使用 python3 而不是 python .

相关问题