首页 文章

使用非标准分隔符为CSV定制CSV自定义分类器

提问于
浏览
0

我正在尝试使用AWS Glue来抓取数据集并使其可用于在Athena中进行查询 . 我的数据集是一个分隔的文本文件,使用^来分隔列 . Glue无法推断此数据的架构,因为CSV分类器仅识别逗号(,),管道(|),制表符(\ t),分号(;)和Ctrl-A(\ u0001) . 有没有办法更新这个分类,包括非标准的分隔符?构建自定义分类器的选项似乎只支持Grok,JSON或XML,在这种情况下不适用 .

1 回答

  • 0

    您需要使用自定义Grok模式创建自定义分类器,并在爬网程序中使用该模式 . 假设您的数据如下所示,包含四个字段:

    qwe^123^22.3^2019-09-02
    

    要处理上述数据,您的自定义模式将如下所示:

    %{NOTSPACE:name}^%{INT:class_num}^%{BASE10NUM:balance}^%{CUSTOMDATE:balance_date}
    

    如果这对您有用,请告诉我 .

相关问题