首页 文章

根据featuretools中的截止时间创建要素

提问于
浏览
1

我使用featuretools,我需要创建一个使用截止时间进行计算的功能 .

我的实体集包含一个客户端表和一个订阅表(它有更多但是对于问题只有这些是必要的):

import featuretools as ft
import pandas as pd


client_table = pd.DataFrame({'client_id': (1,2,3), 
                             'start_date': (dt.date(2015,1,1),dt.date(2017,10,15),dt.date(2011,1,10))})

subscription_table = pd.DataFrame({'client_id': (1,3,1,2), 
                             'start_plan_date': (dt.date(2015,1,1),dt.date(2011,1,10), dt.date(2018,2,1),dt.date(2017,10,15)), 
                             'end_plan_date':(dt.date(2018,2,1),dt.date(2019,1,10), dt.date(2021,2,1),dt.date(2019,10,15))})

客户表

client_id   start_date
0   1       2015-01-01
1   2       2017-10-15
2   3       2011-01-10

子条带表

subscription_id client_id   start_plan_date end_plan_date
0   1   1   2015-01-01      2018-02-01
1   2   3   2011-01-10      2019-01-10
2   3   1   2018-02-01      2021-02-01
3   4   2   2017-10-15      2019-10-15

我使用client_id作为键创建了实体集,并将start_date设置为time_index

es = ft.EntitySet()
es = es.entity_from_dataframe(entity_id="client", 
                              dataframe=client_table,
                              index="client_id",
                              time_index="start_date")

es = es.entity_from_dataframe(entity_id="subscription", 
                              dataframe=subscription_table,
                              index="subscription_id",
                              time_index="start_plan_date", 
                              variable_types={"client_id": ft.variable_types.Index,
                                             "end_plan_date": ft.variable_types.Datetime})

relation= ft.Relationship(es["client"]["client_id"],es["subscription"]["client_id"])

es = es.add_relationship(relation)
print(es)

日期:

Entityset: None
  Entities:
    subscription [Rows: 4, Columns: 4]
    client [Rows: 3, Columns: 2]
  Relationships:
    subscription.client_id -> client.client_id

现在,我需要创建一个功能,估计每个客户端的截止时间(即01/01/2018)和最近的end_plan_date之间的时间 . 在代数形式中,计算应该是

time_remaining_in_plan = max(subscription.end_plan_date - cutoff_time)

此外,我需要计算自客户端启动以来的时间量:

time_since_start = cutoff_time - client.start_date

在我的例子中,这些特征的预期输出应该是这样的(假设时间差以天为单位,但也可能是几个月,也是我使用截止时间的时间范围):

client_id cutoff_time time_remaining_in_plan  time_since_start
0   3     2018-10-31  71                      2851
1   3     2018-11-30  41                      2881
2   1     2018-10-31  824                     1399
3   1     2018-11-30  794                     1429
4   2     2018-10-31  349                     381
5   2     2018-11-30  319                     411

有没有办法使用featuretools创建自定义基元(聚合或转换)或种子功能,可以生成此结果?

谢谢!!

1 回答

  • 0

    这可以使用 use_calc_time 参数的自定义基元完成 . 此参数将设置基元,以便在计算期间将截止时间传递给它 .

    在您的情况下,我们需要定义两个基元

    from featuretools.primitives import make_trans_primitive
    from featuretools.variable_types import Datetime, Numeric
    
    
    def time_until(array, time):
        diff = pd.DatetimeIndex(array) - time
        return diff.days
    
    
    TimeUntil = make_trans_primitive(function=time_until,
                                     input_types=[Datetime],
                                     return_type=Numeric,
                                     uses_calc_time=True,
                                     description="Calculates time until the cutoff time in days",
                                     name="time_until")
    
    
    def time_since(array, time):
        diff = time - pd.DatetimeIndex(array)
        return diff.days
    
    
    TimeSince = make_trans_primitive(function=time_since,
                                     input_types=[Datetime],
                                     return_type=Numeric,
                                     uses_calc_time=True,
                                     description="Calculates time since the cutoff time in days",
                                     name="time_since")
    

    然后我们可以在调用 ft.dfs 时使用原语

    cutoff_times = pd.DataFrame({
        "client_id": [1, 1, 2, 2, 3, 3],
        "cutoff_time": pd.to_datetime([dt.date(2018,10,31), dt.date(2018,11,30)]*3)
        })
    
    fm, fl = ft.dfs(entityset=es,
                    target_entity="client",
                    cutoff_time=cutoff_times,
                    agg_primitives=["max"],
                    trans_primitives=[TimeUntil, TimeSince],
                    cutoff_time_in_index=True)
    
    
    # these columns correspond to time_remaining_in_plan and time_since_start
    fm = fm[["MAX(subscription.TIME_UNTIL(end_plan_date))", "TIME_SINCE(start_date)"]]
    

    这回来了

    MAX(subscription.TIME_UNTIL(end_plan_date))  TIME_SINCE(start_date)
    client_id time                                                                           
    1         2018-10-31                                         -272                    1399
    2         2018-10-31                                          349                     381
    3         2018-10-31                                           71                    2851
    1         2018-11-30                                         -302                    1429
    2         2018-11-30                                          319                     411
    3         2018-11-30                                           41                    2881
    

    这与您在答案中寻找的结果相匹配,但客户端ID为 time_remaining_in_plan 除外 . 我仔细检查了数字Feauturetools,我相信它们适用于此数据集 .

相关问题