首页 文章

集群Scikit - 将业务数据转换为机器学习输入数据

提问于
浏览
0

我是数据科学世界的新手,我正在努力理解关于ML结果的概念 . 我已经开始使用 scikit - clustering 示例了 . 使用scikit库随处可见 . 但是所有的例子都假设有现成的数值数据 .

现在,数据科学家如何将业务数据转换为机器学习数据 . 举一个例子,这里是我准备的客户和销售数据 .

Customer Data

Order Data

第一张图显示了客户数据,其中一些参数具有整数,字符串和布尔值

第二张图显示了这些客户的历史销售数据 .

现在,如何将这样的真实业务数据转换为机器学习算法?如何将每个数据转换为算法可以理解的公共因子?

谢谢K.

2 回答

  • 0

    技术上,有很多方法,例如单热编码,标准化,以及进入倾斜属性的日志空间 .

    但问题不仅仅是技术问题 .

    找到一种方法是不够的,但 you need to find one that works really well for your problem . 这通常与问题有很大不同 . 没有"turn key solution" .

  • 0

    除了@ Anony-Mousse的评论之外,您还可以将Won / Lost列转换为值1,0(例如,对于 Won 为1,对于 Lost 为0) . 对于 Y 列,假设列中有3个唯一值,您可以将 A 转换为 [1, 0, 0]B[0, 1, 0]C[0, 0, 1] (称为单热编码) . 在 Z 列上,您可以将 TRUE 列转换为 1 ,将 FALSE 转换为 0 (或分别为 TrueFalse ) .

    要将2个表或excel文件合并在一起,可以使用名为 pandas 的附加库,它允许您将两个数据帧合并在一起,例如 df1.merge(df2, on='CustID', how='left') . 现在,您可以将您的功能集设置为scikit正确学习 .

相关问题