s3-dist-cp 是 AWS EMR 内置的用于 S3 和 HDFS 之间文件拷贝的专用工具,与 Hadoop 的 distcp 类似,也是通过 Map-Reduce 作业的方式实现分布式的文件复制(distcp 就是 distributed copy 分布式拷贝的意思)。s3-dist-cp 并不是一个简单的在 S3 和 HDFS 之间拷贝文件的工具,因为它并不是一个独立运行的命令行工具,而是要依靠 EMR 集群提交 MR 作业。实际上,它更多应用在超大数据集的迁移上,例如将原来 HDFS 上的构