我正在努力编写一个基本单元测试来创建数据框,使用Spark提供的示例文本文件,如下所示 .
class dataLoadTest extends FunSuite with Matchers with BeforeAndAfterEach {
private val master = "local[*]"
private val appName = "data_load_testing"
private var spark: SparkSession = _
override def beforeEach() {
spark = new SparkSession.Builder().appName(appName).getOrCreate()
}
import spark.implicits._
case class Person(name: String, age: Int)
val df = spark.sparkContext
.textFile("/Applications/spark-2.2.0-bin-hadoop2.7/examples/src/main/resources/people.txt")
.map(_.split(","))
.map(attributes => Person(attributes(0),attributes(1).trim.toInt))
.toDF()
test("Creating dataframe should produce data from of correct size") {
assert(df.count() == 3)
assert(df.take(1).equals(Array("Michael",29)))
}
override def afterEach(): Unit = {
spark.stop()
}
}
我知道代码本身是有效的(来自spark.implicits._ .... toDF()),因为我已经在Spark-Scala shell中验证了这一点,但在测试类中我遇到了很多错误; IDE无法识别'import spark.implicits._或toDF(),因此测试不会运行 .
我正在使用SparkSession,它自动创建SparkConf,SparkContext和SQLContext .
我的代码只使用Spark repo中的示例代码 .
任何想法为什么这不起作用?谢谢!
NB . 我已经看过StackOverflow上的Spark单元测试问题,就像这样:How to write unit tests in Spark 2.0+?我用它来编写测试,但我仍然得到错误 .
我正在使用Scala 2.11.8和Spark 2.2.0与SBT和IntelliJ . 这些依赖项正确包含在SBT构建文件中 . 运行测试时的错误是:
错误:(29,10)值toDF不是org.apache.spark.rdd.RDD [dataLoadTest.this.Person]的成员可能的原因:可能在`to toFF'之前缺少分号? .toDF()
错误:(20,20)需要稳定的标识符,但找到了dataLoadTest.this.spark.implicits . import spark.implicits._
IntelliJ将无法识别导入spark.implicits._或.toDF()方法 .
我导入了:import org.apache.spark.sql.SparkSession import org.scalatest . {BeforeAndAfterEach,FlatSpec,FunSuite,Matchers}
2 回答
您需要将
sqlContext
分配给val
以便implicits
才能工作 . 由于您的sparkSession
是var
,implicits
将无法使用它所以你需要这样做
此外,您可以为测试编写函数,以便您的测试类看起来如下所示
有许多库用于火花的单元测试,其中一个最常用的是
spark-testing-base :作者:Holden Karau
这个库的所有内容都是
sc
,因为下面的SparkContext
就是一个简单的例子在这里,每件事都准备
sc
为SparkContext
另一种方法是创建
TestWrapper
并使用多个testcases
,如下所示并使用此
TestWrapper
用于所有带有Scala测试的tests
,使用BeforeAndAfterAll
和BeforeAndAfterEach
.希望这可以帮助!