登录
  • #数学|统计

关于‌‌‍‍‌‍‍‌‍‍‌‌‌‌‌‍‍‍‍‌‍‌‍‍‌‍‍‍‌‌‌‍机器学习的一些想法

winddancer
406
0
最近一直在思考的两个问题:

哪些因素影响机器学习模型的落地?

作为职业现在的瓶颈是什么?

这篇文章总结个人经验和网上评论, 希望能抛砖引玉, 大家各抒己见。

哪些因素影响机器学习模型的落地?

取决于模型是否提供有效的解决方案,是否适用于业务场景, 需要从精确度,自动化程度, 成本/计算力,模型的稳定性和可解释性以及维护综合评估。

一个准确率90%的模型对于自动驾驶是不够的, 因为错误的成本很高;然而同样的准确率对于频率较高的量化交易可能是合适的, 因为最后的利润是许多small bet的总和, 即使不是每一次交易都能盈利,如果风险控制得当, 长期平均意义上仍然是盈利的。所以准确率的bar应该定多高应该根据业务场景而定, 或者通过simulation来计算risk/reward。

除了准确率以外, 模型的可解释性对于辅助人类做判断的应用尤其重要,比如用于辅助医生诊断病因和康复效果等。医生做出诊断会考虑很多变量, 这些变量可能是因人而异的,比如精神因素, 这些很难量化或者覆盖率很低, 往往不能为机器学习模型所用。 再加上training dataset可能样本很有限而且有 imbalance (比如 positive case 非常少), 复杂的模型很容易overfit。相比较blackbox 模型, 一个准确率不是最高的但方便解释的简单模型(比如decision tree)可能更容易被医生接受。

另外一个需要考虑的问题是模型retrain的频率以及发生covariate shift, concept drift的可能性, 即变量以及变量之间的关系是否会随着时间而改变。 如果模型收集反馈数据的周期很长, drift会很难被更正。 再比如如果很多机构都使用同样的量化交易模型, market dynamic 可能会改变, 交易成本上升, 这都会对模型的performance产生长期的影响。

作为职业现在的瓶颈是什么?

研究方面breakthrough近两年比较少, 发展比较快的是ML模块化, 建立调试模型的周期大大缩短了, 效率快速提升。 但是机器学习模型真正落地monetize的应用场景并没有增加很多。 数据的质与量对于模型performance的影响可能是决定性的。
0条回复
热度排序

发表回复