首页 文章

分类事件数据

提问于
浏览
0

我开始使用机器学习和分析,我的方法是直接使用数据,并在需要时学习方法/工具 .

我有一组事件数据,通过具有独特ID的RFID芯片记录人们进出房间的移动,以便我有一个芯片进入房间和何时离开的时间戳 . 我想根据他们进出房间的动作对芯片ID进行分类 .

例如,

  • 定期离开并返回的芯片可能属于在该房间工作的人 .

  • 进入并长时间停留的芯片可能属于移动的电子设备 .

  • 一段时间后离开的芯片,只有很少或只有一组入口/出口可能是访客 .

  • 在房间里花费最少时间并且不经常访问的芯片可能只是一个人走过 .

这是我的四个主要类别 .

到目前为止,我已经尝试过k-means聚类 . 对于每个芯片,我计算一些可以指示特定类别的参数:在房间中花费的平均时间,一周中看到的天数,在房间中花费的总时间以及每天的平均入口/出口数 .

有了这个,我已经看到了一些合理的结果,但根据我使用的参数结果有很大的不同 . 看一下我在图上生成的芯片参数,分类中存在很多变化 . 我没有任何好的训练数据,这就是我首先尝试分类方法的原因 .

我主要是寻找一些关于什么可能是更好的算法或技术的建议,或者即使我的方法已经过时了 . 如果需要,我可以提供代码或虚拟数据,但我真的只是在寻找一个好的方向 .

1 回答

  • 0

    听起来像是一个有趣的问题!以下是一些可能会给您一些好主意的一般性建议 .

    首先,如果您能够通过对此数据建模来确定您尝试实现的某种目标,那将非常有用 . 可能是你想要识别入侵者,或者了解有多少不同类别的RFID徽章(你在问题中列出了四个,但如果真的有五个或十个?),或完全是其他任务 . 您可能需要不同的数据,具体取决于您确定的任务,但它会很有用,因为您可以衡量您正在尝试的是否实际工作 . 希望有道理 .

    其次,如果您使用k-means(或任何聚类算法,实际上)以无人监督的方式对数据进行建模,那么规范化数据的功能是个好主意 . 假设您只有两个功能 - 一个表示最后一个进入房间的小时,另一个表示一个月内的总入口数 . 第一个特征的值将在[0,24]范围内,而第二个特征的值可以在0到1000之间(比方说) . 然后,当您计算数据点之间的距离时,第二个特征可能主导距离计算,因为数值更大 . 首先,尝试从每个特征中减去均值,然后除以标准差 . 这将有希望使您的功能集群更稳定,如果没有别的 .

相关问题