使用pandas以.txt格式保存拆分数据集-Java 学习之路

尝试将数据集吐出到 train 和 test ，然后需要将其保存为 .txt 格式 .

这是迄今为止的代码，

import pandas as pd
from sklearn.model_selection import train_test_split

category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8')

train, test = train_test_split(category, test_size=0.2)

test.to_csv('checkme.txt')

但是，当我尝试这样做时，它会给出错误：

回溯（最近一次调用最后一次）：文件“splitter.py”，第8行，在test.to_csv（'checkme.tsv'）文件中“/home/abc/micro/micro/local/lib/python2.7/site -packages / pandas / core / frame.py“，第1745行，在to_csv formatter.save（）文件”/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/io/formats /csvs.py“，第171行，保存self._save（）文件”/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/io/formats/csvs.py“，第286行，在_save self._save_chunk（start_i，end_i）文件“/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/io/formats/csvs.py”，第313行， in _save_chunk self.cols，self.writer）文件“pandas / _libs / writers.pyx”，第64行，在pandas._libs.writers.write_csv_rows中UnicodeEncodeError：'ascii'编解码器无法对字符u'\ u026a'进行编码111：序数不在范围内（128）

这里可能有什么问题，以及如何解决这个问题？

1 回答

2
您需要将数据帧写为unicode：
```
test.to_csv('checkme.txt', sep='\t', encoding='utf-8')
```
回复于 2024-04-27T01:39:06+08:00

使用pandas以.txt格式保存拆分数据集

1 回答

相关问题