首页 文章

如何使用SparkContext.textFile ftp文件?

提问于
浏览
-3

我尝试使用此scala代码从ftp站点下载文件 . 代码如下 .

object BasicTextFromFTP {
def main(args: Array[String]) {
    val conf = new org.apache.spark.SparkConf().setAppName("FTP Test")
    conf.setMaster("local")
    val sc = new SparkContext(conf)
    val file = sc.textFile("ftp://anonymous:pandamagic@ftp.ubuntu.com/ubuntu/ls-LR.gz")
    println(file.collect().mkString("\n"))
}
}

我运行它时出现以下错误 .

16/02/12 10:52:22 INFO SparkContext:在BasicTextFromFTP.scala中从textFile创建广播0:14线程“main”中的异常org.apache.hadoop.mapred.InvalidInputException:输入路径不存在:ftp:/ /anonymous:pandamagic@ftp.ubuntu.com/ubuntu/ls-LR.gz atg.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:251)org.apache.hadoop.mapred.FileInputFormat.getSplits( FileInputFormat.java:270)org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:199)at org.apache.spark.rdd.RDD $$ anonfun $ partitions $ 2.apply(RDD.scala:239) at org.apache.spark.rdd.RDD $$ anonfun $在org.apache.spark.rdd.RDD.partitions的scala.Option.getOrElse(Option.scala:121)处分区$ 2.apply(RDD.scala:237) (RDD.scala:237)org.apache.spark.rdd.MapPartitionsRDD.getPartitions(MapPartitionsRDD.scala:35)at org.apache.spark.rdd.RDD $$ anonfun $ partitions $ 2.apply(RDD.scala:239) )在org.apache.spark.rdd.RDD $$ anonfun $ partitions $ 2.apply(RDD.scala:237)scala.Option.getOrElse(Option.scala:121) org.apache.spark.rdd.RDD.partitions(RDD.scala:237)org.apache.spark.SparkContext.runJob(SparkContext.scala:1929)at org.apache.spark.rdd.RDD $$ anonfun $在org.apache.spark.rdd.RDDOperationScope $ .withScope(RDDOperationScope.scala:150)收集$ 1.apply(RDD.scala:927)org.apache.spark.rdd.RDDOperationScope $ .withScope(RDDOperationScope.scala:111) )atg.apache.spark.rdd.RDD.withScope(RDD.scala:316)at org.apache.spark.rdd.RDD.collect(RDD.scala:926)at ftp.BasicTextFromFTP $ .main(BasicTextFromFTP.scala :15)在sun.reflect.DelegatingMethodAccessorImpl.invoke的sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)的sun.reflect.NativeMethodAccessorImpl.invoke0(本地方法)的ftp.BasicTextFromFTP.main(BasicTextFromFTP.scala)处 . DelegatingMethodAccessorImpl.java:43)在com.intellij.rt.execution.application.AppMain.main的java.lang.reflect.Method.invoke(Method.java:606)中(AppMain.java:144)

我使用带有scala 2.11的spark 1.6.0 .

1 回答

  • 1

    你能访问这个FTP网址吗?我无法知道有时FTP在企业网络中被阻止 . 您可能希望下载此HDFS API项目(https://github.com/pppsunil/HelloHDFS)并从命令行运行它以查看您是否能够获取该文件 . 您可以在此博客条目http://wpcertification.blogspot.com/2014/07/hdfs-java-client.html上找到有关该计划的更多信息 . 如果访问FTP网址的基本功能不起作用,那就是你的问题,如果不是那么它可能是与spark有关的东西

相关问题