可以采用哪些KPI来衡量人工智能项目的成功?
调研机构IDC公司在2020年6月发布的一项研究报告表明,大约28%的人工智能计划遭遇失败。报告给出的理由是缺乏专业知识、缺乏相关数据以及缺乏足够集成的开发环境。为了建立一个持续改进机器学习的过程并避免陷入困境,确定关键绩效指标(KPI)现在是当务之急。
而在行业上游,可以由数据科学家来定义模型的技术性能指标。它们将根据所使用的算法类型而有所不同。在旨在预测某人的身高作为其年龄函数的回归的情况下,例如,可以求助于线性确定系数。
可以采用一个衡量预测质量的方程:如果相关系数的平方为零,回归线确定0%的点分布。反之,如果该系数为100%,则该数字等于1。因此,这表明预测的质量非常好。
预测与现实的偏差
评估回归的另一个指标是最小二乘法,它指的是损失函数。它包括通过计算实际值与预测线之间偏差的平方和来量化误差,然后通过最小化平方误差来拟合模型。在相同的逻辑中,可以利用平均绝对误差方法,该方法包括计算偏差的基本值的平均值。
法国咨询机构凯捷公司负责战略、数据和人工智能服务的CharlottePierron-Perlès总结说:“无论如何,这相当于衡量与我们试图预测的差距。”
例如,在用于垃圾邮件检测的分类算法中,有必要查找误报和漏报的垃圾邮件。PierronPerlès解释说:“例如,我们为一家化妆品集团开发了一种机器学习解决方案,可以优化生产线的效率。目的是在生产线开始时识别可能导致生产中断的有缺陷的化妆品。我们在与工厂经营者讨论之后与他们一起寻求一个模型来完成检测,即使这意味着检测到误报,也就是说,合格的化妆品可能被误认为是有缺陷的。”
基于误报和漏报的概念,其他三个指标允许评估分类模型:
(1)召回率(R)是指模型敏感度的测量值。它是正确识别的真实阳性(以新冠病毒检测呈阳性为例)与所有应检测的真实阳性(冠状病毒检测呈阳性+冠状病毒检测呈阴性实际是阳性)的比例:R=真阳性/真阳性+假阴性。
(2)精度(P)是指准确度的度量。它是正确的真阳性(新冠病毒检测呈阳性)与所有确定为阳性的结果(新冠病毒检测呈阳性+新冠病毒检测呈阴性)的比例:P=真阳性/真阳性+假阳性。
(3)调和平均值(F-score)衡量模型给出正确预测和拒绝其他预测的能力:F=2×精度×召回率/精度+召回率
模型的推广
法国ESNKeyrus公司首席高级数据科学家DavidTsangHinSun强调说:“一旦构建成模型,其泛化能力将成为关键指标。”
那么如何估计它?通过测量预测和预期结果之间的差异,然后了解这种差异随时间的演变。他解释说,“在一段时间之后,我们可能会遇到分歧。这可能是由于数据集在质量和数量方面的训练不足而导致的学习不足(或过度拟合)。”
那么其解决方案是什么?例如,在图像识别模型的情况下,可以使用对抗性生成网络通过旋转或扭曲来增加图片学习的数量。另一种技术(适用于分类算法):合成少数过采样,它包括通过过采样增加数据集中低发生率示例的数量。
在过度学习的情况下也会出现分歧。在这种配置中,模型在训练后将不会局限于预期的相关性,但是由于过于专业化,它会捕获现场数据产生的噪声并产生不一致的结果。DavidTsangHinSun指出,“然后有必要检查训练数据集的质量,并可能调整变量的权重。”
而经济的关键绩效指标(KPI)依然存在。法国咨询机构AIBuilders公司首席执行官StéphaneRoder认为:“我们必须扪心自问,错误率是否与业务挑战相符。例如,保险商Lemonade公司开发了一种机器学习模块,可以在客户提出索赔后3分钟内根据所传达的信息(包括照片)向客户赔付保险金。考虑到节省的费用,一定的错误率会产生成本。在模型的整个生命周期中,特别是与总体拥有成本(TCO)相比,从开发到维护,检查这一测量值是非常重要。”
采用水平
即使在同一家公司内,预期的关键绩效指标(KPI)也可能有所不同。凯捷公司的CharlottePierronPerlès指出:“我们为一家具有国际地位的法国零售商开发了一个消费预测引擎。结果证明该模型的精确目标在百货商店销售的产品和新产品之间是不同的。后者的销售动态取决于因素,尤其是与市场反应相关的因素,从定义上来说,这些因素不太可控。”
最后一个关键绩效指标是采用水平。CharlottePierron-Perlès说:“即使一个模型质量很好,仅靠它自己是不够的。这需要开发具有面向用户体验的人工智能产品,既可用于业务,又可实现机器的承诺学习。”
StéphaneRoder总结说:“这个用户体验还将允许用户提供反馈,这将有助于在日常生产数据流之外提供人工智能知识。”