首页 文章

使用Scala和Apache Spark过滤[关闭]

提问于
浏览
-1

我创建了一个没有标签的数据集,它有一些列 . 其中一个专栏的 Value 观是法国,德国,法国和英国

我知道如何使用下面的代码进行过滤和计数 .

val b =data.filter(_.contains("France")).count

但是,我不确定如何计算法国以外的其他值 .

我尝试下面的代码,但它给了我错误的结果

val a =data.filter(x=>x!="France").count

PS:我的问题有点类似于Is there a way to filter a field not containing something in a spark dataframe using scala?,但我正在寻找一些更简单的答案 .

2 回答

  • 1

    您正在尝试过滤那些等于“法国”的元素 . 试试这个

    val a=data.filter(!_.contains("France")).count
    
  • 1

    至于cricket_007的观点,应该是这样的

    val myDSCount = data.filter(row => row._1 != "France").count()
    

    我不确定您的数据是哪一列,因此row._1将更改为正确的数字 . 您可以运行以下命令查看所有列:

    data.printSchema
    

相关问题