Alive Workers:使用4个核心:16个内存总使用量:27.2 GB总计

My driver program:

if __name__ == '__main__':
sc = SparkContext()


image_list = []
init_weight = 1 / (const.POSITIVE_SAMPLES_NUMBER * 2)
sample_type = True

acc_sample_count = sc.accumulator(-1)

samp_list = []
index = 0
for image_name in os.listdir(const.POSITIVE_SAMPLES_PATH):
    image = Image.open(const.POSITIVE_SAMPLES_PATH+image_name)
    image_resize = image.resize((24, 24), Image.ANTIALIAS)
    image_gray_format = preoperate.format_gray(array(image_resize))
    image_list.append([index ,image_gray_format])
    index += 1

image_rdd = sc.parallelize(image_list, 128).setName('image_rdd')

samples_rdd = image_rdd.map(lambda img_index : generate_sample(img_index[1], sample_type, init_weight, img_index[0])).setName('sample_rdd')
samples_list = samples_rdd.collect()
print('#######################################')
print(sys.getsizeof(samples_list))
bc_samples = sc.broadcast(samples_list)
del samples_list
image_rdd.unpersist()
y2_position_rdd = sc.parallelize(const.Y2_POSITION, 2000)
y2_fea_val_rdd = y2_position_rdd.mapPartitions(lambda pos : map_cal(pos, bc_samples.value, haarcal.haar_like_Y2_cal), 2000).persist(StorageLevel.DISK_ONLY)
take_list = y2_fea_val_rdd.take(1)
print('#####################################')
for sample in take_list[0][1]:
    print(sample.index)
print('#####################################')
print(y2_fea_val_rdd.count())

这里有两个工作:第一个工作很好,但是没有任何记录就忽略了下一个工作 . 没有任何错误日志的web ui中的stderr

My log:

17/03/11 16:49:32 INFO TaskSetManager: Finished task 115.0 in stage 0.0 (TID 115) in 1463 ms on 10.29.90.41 (executor 3) (116/128)

17/03/11 16:49:32 INFO TaskSetManager:完成任务116.0,阶段0.0(TID 116),在1469 ms,10.30.147.199(执行人9)(117/128)

17/03/11 16:49:32 INFO TaskSetManager:完成任务117.0,阶段0.0(TID 117),在1380毫秒,在10.30.147.84(执行人13)(118/128)

17/03/11 16:49:33 INFO TaskSetManager:完成任务119.0,阶段0.0(TID 119),在1376 ms,在10.30.147.84(执行人12)(119/128)

17/03/11 16:49:33 INFO TaskSetManager:在10.30.147.154(执行人4)(执行者4)(120/128)的1410毫秒的阶段0.0(TID 118)中完成任务118.0

17/03/11 16:49:33 INFO TaskSetManager:完成任务120.0,阶段0.0(TID 120),在1495毫秒,在10.30.147.154(执行人7)(121/128)

17/03/11 16:49:33 INFO TaskSetManager:完成任务122.0,阶段0.0(TID 122),在1355毫秒,在10.30.147.154(执行人6)(122/128)

17/03/11 16:49:33 INFO TaskSetManager:完成任务123.0,阶段0.0(TID 123),在1424 ms,在10.30.147.84(执行人14)(123/128)

17/03/11 16:49:33 INFO TaskSetManager:完成任务121.0,阶段0.0(TID 121),在1566毫秒,在10.30.147.199(执行人8)(124/128)

17/03/11 16:49:33 INFO TaskSetManager:完成任务124.0,阶段0.0(TID 124),在1342毫秒,在10.30.147.154(执行人5)(125/128)

17/03/11 16:49:33 INFO TaskSetManager:完成任务125.0,阶段0.0(TID 125),在1344 ms,在10.29.90.41(执行人0)(126/128)

17/03/11 16:49:34 INFO TaskSetManager:完成任务126.0,阶段0.0(TID 126),在1599毫秒,在10.30.147.199(执行人11)(127/128)

17/03/11 16:49:35 INFO TaskSetManager:完成任务127.0,阶段0.0(TID 127),在2667毫秒,在10.29.90.41(执行人2)(128/128)

17/03/11 16:49:35 INFO TaskSchedulerImpl:从池中删除任务已完成的TaskSet 0.0

17/03/11 16:49:35 INFO DAGScheduler:ResultStage 0(收集于/home/dcooo/projects/FaceDetection/main/facedetection/spark_cal_features.py:70)于16.419秒完成

17/03/11 16:49:35 INFO DAGScheduler:作业0完成:收集于/home/dcooo/projects/FaceDetection/main/facedetection/spark_cal_features.py:70,花了17.078753 s

40816

17/03/11 16:49:37 INFO SparkContext:从关闭钩子调用stop()

17/03/11 16:49:37 INFO SparkUI:在http://10.165.51.174:4040停止Spark Web UI

17/03/11 16:49:37 INFO StandaloneSchedulerBackend:关闭所有执行程序

17/03/11 16:49:37 INFO CoarseGrainedSchedulerBackend $ DriverEndpoint:要求每个执行者关闭

17/03/11 16:49:37 INFO MapOutputTrackerMasterEndpoint:MapOutputTrackerMasterEndpoint已停止!

17/03/11 16:49:37 INFO MemoryStore:MemoryStore已清除

17/03/11 16:49:37 INFO BlockManager:BlockManager已停止

17/03/11 16:49:37 INFO BlockManagerMaster:BlockManagerMaster已停止

17/03/11 16:49:37 INFO OutputCommitCoordinator $ OutputCommitCoordinatorEndpoint:OutputCommitCoordinator停止了!

17/03/11 16:49:37 INFO SparkContext:成功停止了SparkContext

17/03/11 16:49:37 INFO ShutdownHookManager:关闭挂钩调用

17/03/11 16:49:37 INFO ShutdownHookManager:删除目录/ tmp / spark-e8666f9e-c811-48f1-b116-7b48cd74347a

17/03/11 16:49:37 INFO ShutdownHookManager:删除目录/ tmp / spark-e8666f9e-c811-48f1-b116-7b48cd74347a / pyspark-a74f8c26-c7ef-43ed-ad5e-100a7e4c57e5

我的第一份工作运作良好,并且火花没有执行我的第二份工作 My environments:

spark.executor.cores 1

spark.cores.max 16

spark.executor.memory 1g

spark.default.parallelism 128