我有一个cassandra表,大小约150 GB . 我想将表迁移到另一个cassandra集群 . 我有两种方法: -1.使用spark作业从旧集群读取数据并写入新集群 .2.使用某种格式将cassandra数据保存到S3 . 将数据保存到S3后,使用spark再次读取数据以将数据保存到新群集 . 如果我采用这种方法,那么我应该以什么格式保存数据?因为我必须再次从S3读取数据 . 那么,在这种情况下哪种格式最好? csv或json还是镶木地板?
我建议使用COPY TO命令在csv中解压缩,然后将数据复制回来 - https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html
例如
COPY my_table TO 'my_table.csv' // on source Cassandra COPY my_table FROM 'my_table.csv' // on destination Cassandra
1 回答
我建议使用COPY TO命令在csv中解压缩,然后将数据复制回来 - https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html
例如