我跟着handy tutorial设置了一个带有数据科学库和Debian GNU / Linux 9磁盘映像的Google Compute Engine VM实例 . 我在我的本地机器上运行了一个数据探索笔记本,发现 pandas.read_csv()
搞砸了我的训练数据的导入 .
正确导入,数据集是一个带有一列('text')的pandas数据框 . 该列中的3000个条目中的每一个都是来自生物医学文献语料库的文章 . 然而,VM上发生的是应用了一些长度阈值,并且pandas将给定文章的一部分分流到数据帧的新行 . 它对大多数但不是所有文章都这样做,数据框最终有近6000个条目 . 更重要的是,尝试训练模型是没用的 .
我使用Vagrant克隆了我的本地环境,但看起来可能很难将我的磁盘映像放入Google Cloud并进行优化 . 所以,我想我先在这里查看是否有人知道更简单的解决方案,比如选择与Debian / Linux不同的机器类型来设置我的Compute Engine实例,以便pandas功能正常工作 . 感谢您的输入!
1 回答
登录到默认使用Debian / GNU Linux的Google Cloud VM实例后,您可以使用以下常规:
否则,如果您更喜欢使用pip安装程序,那么它也适用:
然后你可以安装其他PyPi库,比如pandas
sudo pip install pandas
请记住,如果你想为Python 3.x安装库,请在上面的代码片段中使用python3
而不是python
.