我是数据科学世界的新手,我正在努力理解关于ML结果的概念 . 我已经开始使用 scikit - clustering 示例了 . 使用scikit库随处可见 . 但是所有的例子都假设有现成的数值数据 .
现在,数据科学家如何将业务数据转换为机器学习数据 . 举一个例子,这里是我准备的客户和销售数据 .
第一张图显示了客户数据,其中一些参数具有整数,字符串和布尔值
第二张图显示了这些客户的历史销售数据 .
现在,如何将这样的真实业务数据转换为机器学习算法?如何将每个数据转换为算法可以理解的公共因子?
谢谢K.
2 回答
技术上,有很多方法,例如单热编码,标准化,以及进入倾斜属性的日志空间 .
但问题不仅仅是技术问题 .
找到一种方法是不够的,但 you need to find one that works really well for your problem . 这通常与问题有很大不同 . 没有"turn key solution" .
除了@ Anony-Mousse的评论之外,您还可以将Won / Lost列转换为值1,0(例如,对于
Won
为1,对于Lost
为0) . 对于Y
列,假设列中有3个唯一值,您可以将A
转换为[1, 0, 0]
和B
到[0, 1, 0]
和C
到[0, 0, 1]
(称为单热编码) . 在Z
列上,您可以将TRUE
列转换为1
,将FALSE
转换为0
(或分别为True
或False
) .要将2个表或excel文件合并在一起,可以使用名为
pandas
的附加库,它允许您将两个数据帧合并在一起,例如df1.merge(df2, on='CustID', how='left')
. 现在,您可以将您的功能集设置为scikit正确学习 .