我想开发一个框架(用于QA测试目的),验证机器学习模型 . 我与同行进行了很多讨论,并从谷歌阅读文章 .
大多数讨论或文章都在说明机器学习模型将随着我们提供的测试数据而发展 . 如我错了请纠正我 .
开发一个验证机器学习模型的框架会产生准确结果的可能性有多大?
从我读过的文章中测试模型的几种方法:分裂和多分裂技术,变形测试
还请建议任何其他方法
基于ML的软件的QA测试需要额外的,而非常规的测试,因为对于给定的一组输入,它们的输出通常不是定义的,确定性的或先验已知的,并且它们产生近似而不是精确的结果 .
质量保证可能旨在测试:
天真但可预测的基准方法:预测中的average method,分类中基于类频率的分类器等 .
sanity checks(输出是可行的/理性的):例如,预测的年龄是正的吗?
预设目标接受程度:例如,是AUCROC> 0.5?
极端/边界情况:例如,天气预报模型的雷暴条件 .
bias-variance tradeoff:样本内和样本外数据的表现如何? K-Fold cross-validation在这里很有用 .
模型本身:来自n的性能指标(例如,AUCROC)的coefficient of variation是否在相同/随机列车的相同数据上运行并且在合理范围内进行测试分区?
其中一些测试需要性能测量 . Here是一个综合的图书馆 .
1 回答
基于ML的软件的QA测试需要额外的,而非常规的测试,因为对于给定的一组输入,它们的输出通常不是定义的,确定性的或先验已知的,并且它们产生近似而不是精确的结果 .
质量保证可能旨在测试:
天真但可预测的基准方法:预测中的average method,分类中基于类频率的分类器等 .
sanity checks(输出是可行的/理性的):例如,预测的年龄是正的吗?
预设目标接受程度:例如,是AUCROC> 0.5?
极端/边界情况:例如,天气预报模型的雷暴条件 .
bias-variance tradeoff:样本内和样本外数据的表现如何? K-Fold cross-validation在这里很有用 .
模型本身:来自n的性能指标(例如,AUCROC)的coefficient of variation是否在相同/随机列车的相同数据上运行并且在合理范围内进行测试分区?
其中一些测试需要性能测量 . Here是一个综合的图书馆 .