首页 文章
  • 21 votes
     answers
     views

    使用机器学习来重复数据

    我有以下问题,并认为我可以使用机器学习但我不完全确定它将适用于我的用例 . 我有一个大约一亿条记录的数据集,其中包含客户数据,包括姓名,地址,电子邮件,电话等,并希望找到一种方法来清理这些客户数据并识别数据集中可能存在的重复数据 . 大多数数据都是使用没有验证的外部系统手动输入的,因此很多客户在我们的数据库中最终得到了多个配置文件,有时每条记录中都有不同的数据 . 对于实例我们可能为客户John ...

热门问题