假设我有以下格式的数据集:
col1 col2 col3 col4 col5 (to be predicted)
12 13 4 primary 12
1 15 2 secondary 13
5 7 8 primary 18
14 12 44 college 6
需要使用col1,col2,col3和col4预测某些测试数据的col5
在训练期间,col1,col2,col3可以在分类器的阵列中被喂养,但是如何喂养col4 . 我知道这是绝对的,需要转换为数字类型,但即使在分配了一些数字之后,它仍将保持为名义类型 .
因此,如果primary = 1,secondary = 2且college = 3,则数字1,2和3不能按其大小进行比较,因为它们仍然像标签,没有数字意义 .
那么我应该在这一步之后继续......他们应该正常化吗?还是应该做什么?
1 回答
在这种情况下,您应该使用One Hot Encoding . 每个可能的分类值都会创建新的二进制特征 .
One Hot Encoding for Machine learning