首页 文章

使用pandas以.txt格式保存拆分数据集

提问于
浏览
1

尝试将数据集吐出到 traintest ,然后需要将其保存为 .txt 格式 .

这是迄今为止的代码,

import pandas as pd
from sklearn.model_selection import train_test_split

category=pd.read_csv('dataset.tsv',delimiter='\t',encoding='utf-8')

train, test = train_test_split(category, test_size=0.2)

test.to_csv('checkme.txt')

但是,当我尝试这样做时,它会给出错误:

回溯(最近一次调用最后一次):文件“splitter.py”,第8行,在test.to_csv('checkme.tsv')文件中“/home/abc/micro/micro/local/lib/python2.7/site -packages / pandas / core / frame.py“,第1745行,在to_csv formatter.save()文件”/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/io/formats /csvs.py“,第171行,保存self._save()文件”/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/io/formats/csvs.py“,第286行,在_save self._save_chunk(start_i,end_i)文件“/home/abc/micro/micro/local/lib/python2.7/site-packages/pandas/io/formats/csvs.py”,第313行, in _save_chunk self.cols,self.writer)文件“pandas / _libs / writers.pyx”,第64行,在pandas._libs.writers.write_csv_rows中UnicodeEncodeError:'ascii'编解码器无法对字符u'\ u026a'进行编码111:序数不在范围内(128)

这里可能有什么问题,以及如何解决这个问题?

1 回答

  • 2

    您需要将数据帧写为unicode:

    test.to_csv('checkme.txt', sep='\t', encoding='utf-8')
    

相关问题