首页 文章
  • 0 votes
     answers
     views

    使用python中的字典在文本文件中查找字典单词

    我读了how to check dictionary words我想到了用字典检查我的文本文件 . 我已经阅读了pyenchant指令,我想如果我使用 get_tokenizer 给我回复文本文件中的所有字典单词 . 所以这就是我被困住的地方:我希望我的程序以段落的形式给我所有字典词组 . 一旦遇到任何垃圾字符,就会认为段落中断,并忽略所有内容,直到找到X个连续的单词 . 我希望它以 filena...
  • 0 votes
     answers
     views

    pyspark sql函数而不是rdd distinct

    我一直在尝试替换特定列的数据集中的字符串 . 1或0,'Y'如果为1,否则为0 . 我已经设法确定要使用lambda对数据帧进行rdd转换的目标列,但是需要一段时间来处理 . 每个列都会切换到rdd,然后执行不同的操作,这需要一段时间! 如果不同的结果集中存在“Y”,则该列被识别为需要转换 . 我想知道是否有人可以建议我如何专门使用pyspark sql函数来获得相同的结果而不必为每列切换? 样...
  • 0 votes
     answers
     views

    在大数据中查找缺失值

    我有许多需要分析的表格 . 目前,数据正在被清理,因为它有很多缺失值 . 在某些情况下,只有一个值丢失,而在其他大约200行 . Question 如何找到应该在行中插入的值? My Approach 图的简单线性外推 . 查找值的平均值并将其插入所有缺失值 . 如果缺少200个值,则取最后100个值和接下来100个值的平均值 . 虽然我可以想到上述所有方法,但我不确定它的效率或方...

热门问题