集群Scikit - 将业务数据转换为机器学习输入数据

提问于 2024-04-26T05:32:01+08:00

浏览次

0

我是数据科学世界的新手，我正在努力理解关于ML结果的概念 . 我已经开始使用 scikit - clustering 示例了 . 使用scikit库随处可见 . 但是所有的例子都假设有现成的数值数据 .

现在，数据科学家如何将业务数据转换为机器学习数据 . 举一个例子，这里是我准备的客户和销售数据 .

Customer Data

Order Data

第一张图显示了客户数据，其中一些参数具有整数，字符串和布尔值

第二张图显示了这些客户的历史销售数据 .

现在，如何将这样的真实业务数据转换为机器学习算法？如何将每个数据转换为算法可以理解的公共因子？

谢谢K.

2 回答

0

技术上，有很多方法，例如单热编码，标准化，以及进入倾斜属性的日志空间 .

但问题不仅仅是技术问题 .

找到一种方法是不够的，但 you need to find one that works really well for your problem . 这通常与问题有很大不同 . 没有"turn key solution" .

回复于 2024-04-26T05:32:01+08:00
0

除了@ Anony-Mousse的评论之外，您还可以将Won / Lost列转换为值1,0（例如，对于 Won 为1，对于 Lost 为0） . 对于 Y 列，假设列中有3个唯一值，您可以将 A 转换为 [1, 0, 0] 和 B 到 [0, 1, 0] 和 C 到 [0, 0, 1] （称为单热编码） . 在 Z 列上，您可以将 TRUE 列转换为 1 ，将 FALSE 转换为 0 （或分别为 True 或 False ） .

要将2个表或excel文件合并在一起，可以使用名为 pandas 的附加库，它允许您将两个数据帧合并在一起，例如 df1.merge(df2, on='CustID', how='left') . 现在，您可以将您的功能集设置为scikit正确学习 .

回复于 2024-04-26T05:32:01+08:00

相关问题