最好的方法是使用spark将cassandra数据保存到s3-Java 学习之路

我有一个cassandra表，大小约150 GB . 我想将表迁移到另一个cassandra集群 . 我有两种方法： -
1.使用spark作业从旧集群读取数据并写入新集群 .
2.使用某种格式将cassandra数据保存到S3 . 将数据保存到S3后，使用spark再次读取数据以将数据保存到新群集 . 如果我采用这种方法，那么我应该以什么格式保存数据？因为我必须再次从S3读取数据 . 那么，在这种情况下哪种格式最好？ csv或json还是镶木地板？

1 回答

0
我建议使用COPY TO命令在csv中解压缩，然后将数据复制回来 - https://docs.datastax.com/en/cql/3.3/cql/cql_reference/cqlshCopy.html

例如
```
COPY my_table TO 'my_table.csv' // on source Cassandra
COPY my_table FROM 'my_table.csv' // on destination Cassandra
```
回复于 2024-04-29T08:27:20+08:00

最好的方法是使用spark将cassandra数据保存到s3

1 回答

相关问题