在这里's a link to the dataset I'米正在调查:https://github.com/kaizhang/dataset/blob/master/data/survival/leukemia.csv

我想在生存分析中测试维持组与非维持组之间差异的统计学显着性 . 这是Kaplan-Meier图,显示了两组事件发生概率的分布 . 可以清楚地观察到,维持组中的受试者平均存活时间长于未维持组中的受试者 .
enter image description here

统计测试log-rank验证了这一发现:

# Apply log-rank test 

from lifelines.statistics import logrank_test

results = logrank_test(t[maintained],t[~maintained],s[maintained],t[~maintained], alpha=0.99)
results.print_summary()

enter image description here

结果表明,两组生存时间差异具有统计学意义 . 所以,我假设在测试对数危险时,我应该会看到那里的统计差异 . 换句话说,维护组(x = 1)的对数危险应低于未维护组(x = 0) . 为了测试这个,我拟合了一个cox回归模型:

from lifelines import CoxPHFitter

df = data.copy()
df.x.replace(['Maintained', 'Nonmaintained'], [1,0], inplace=True)

cf = CoxPHFitter()
cf.fit(df.ix[:,1:], 'time', event_col='status')
cf.print_summary()

enter image description here

奇怪的是,在这个测试中,x(维持)的参数估计没有统计学意义,这意味着维持和未维护的对数危害没有差别 .

1) In an event such as this show a discrepency in statistical test results, how should a statistician approach interpret survival in relations to different effects?

2) Could the cox-regression be unreliable since the sample size is less than 30?