Pandas read_csv()有条件地跳过标题行-Java 学习之路

我正在尝试读取csv文件，但我的 csv 文件有所不同。有些有不同的格式，有些有其他。我正在尝试添加控件，以便我不需要编辑我的代码或输入文件。

我的问题是，其中一些 csv 文件在列标题上方有一行 String。一个例子：

Created on 12-11-2018,CryptoDataDownload.com
Date,Symbol,Open,High,Low,Close,Volume From,Volume To
2018-12-11 11-AM,ADABTC,8.6e-06,8.61e-06,8.55e-06,8.57e-06,301141.7,2.59
2018-12-11 10-AM,ADABTC,8.69e-06,8.72e-06,8.6e-06,8.6e-06,236949.63,2.05

如果我导入它，分隔符将使用第一行并将文件分成两列，如Created on 12-11-2018和CryptoDataDownload.com。

这是df.head()的样子：

Created on 12-11-2018 CryptoDataDownload.com
Date             Symbol Open     High     Low      Close              Volume From                          Volume To
2018-12-11 11-AM ADABTC 8.6e-06  8.61e-06 8.55e-06 8.57e-06              301141.7                               2.59
2018-12-11 10-AM ADABTC 8.69e-06 8.72e-06 8.6e-06  8.6e-06              236949.63                               2.05
2018-12-11 09-AM ADABTC 8.7e-06  8.7e-06  8.62e-06 8.69e-06             509311.39                               4.41
2018-12-11 08-AM ADABTC 8.69e-06 8.7e-06  8.63e-06 8.7e-06              111367.34                             0.9656

我想检查此文件是否包含此行，如果是，则跳过它。

我怎样才能做到这一点？

2 回答

如果 CSV 文件中的标题遵循类似的模式，您可以执行一些简单的操作，例如在确定是否跳过第一行之前嗅出第一行。

filename = '/path/to/file.csv'
skiprows = int('Created in' in next(open(filename)))
df = pd.read_csv(filename, skiprows=skiprows)

好的做法是使用上下文管理器，所以你也可以这样做：

filename = '/path/to/file.csv'
skiprows = 0
with open(filename, 'r+') as f:
    for line in f:
        if line.startswith('Created '):
            skiprows = 1
        break
df = pd.read_csv(filename, skiprows=skiprows)

回复于 2024-04-20T21:31:01+08:00

0
在 pandas read_csv 命令中使用'comment'参数时，可以跳过以特定字符开头的行。在您的情况下，您可以使用以下代码跳过以“C”开头的行：
```
filename = '/path/to/file.csv'
pd.read_csv(filename, comment = "C")
```
回复于 2024-04-20T21:31:01+08:00

Pandas read_csv()有条件地跳过标题行

2 回答

相关问题