A
A
Serif
Sans
White
Sepia
Night
首页
文章
21 votes
answers
views
使用机器学习来重复数据
我有以下问题,并认为我可以使用机器学习但我不完全确定它将适用于我的用例 . 我有一个大约一亿条记录的数据集,其中包含客户数据,包括姓名,地址,电子邮件,电话等,并希望找到一种方法来清理这些客户数据并识别数据集中可能存在的重复数据 . 大多数数据都是使用没有验证的外部系统手动输入的,因此很多客户在我们的数据库中最终得到了多个配置文件,有时每条记录中都有不同的数据 . 对于实例我们可能为客户John ...
machine-learning
duplicates
mahout
recommendation-engine
record-linkage
热门问题
22299
为什么处理排序数组比处理未排序数组更快?
18633
如何撤消Git中最近提交的提交?
14365
如何在本地和远程删除Git分支?
10549
'git pull'和'git fetch'之间有什么区别?
9402
什么是正确的JSON内容类型?
8739
“yield”关键字有什么作用?
7999
C中的“ - >”运算符是什么?
7746
如何在提交之前撤消'git add'?
7735
如何重定向到其他网页?
7654
JavaScript闭包如何工作?