危机公关公司DEPR的研究表明,只有56%的项目是从人工智能(AI)原型到生产的。这样做有两个原因:首先,在经常被大肆宣传的期望之中,通常不会为初始项目定义通往组织实际价值的明确途径。第二个原因更为重要,并且经常被忽略:闪亮的原型与将原型的结果投入生产之间的技术差距很大。要弥合创建数据整理和模型优化之间的鸿沟,再到部署该流程,通常需要一个复杂的步骤,有时甚至是手动操作。更糟糕的是,所使用的技术很少能很好地结合在一起。这就是很难可靠地将结果大规模投入生产的原因。
为了成功扩展,数据科学平台需要一种集成的部署方法,该方法不仅包括数据摄取和转换,还包括创建AI模型的功能,并且可以自动将其移动到生产环境中(“部署”数据处理和模型)。
如果您希望扩展您的AI项目,则以下一种或两种说法很可能会引起您的共鸣:
处理多种技术:到目前为止,您尚未找到能够混合和匹配技术的解决方案。无需仅因为将某些数据从本地数据库移到云中而更改所有内容。
一致的工具:您希望在创建和部署期间使用完全相同的工具集。当生产过程中没有可用的作品时,没有深夜的惊喜。
自动部署为应用程序或预定作业很重要。部署步骤还需要能够自动适应变更,而无需手动/中间步骤。
回滚:您需要具有回滚到数据科学生产过程的先前版本的能力,以确保可靠性。当然,在您现有的测试和验证设置中,应该早很多发现已部署版本的问题,对吗?
向后兼容是必须的。数年后,您需要能够同时运行创建过程和生产过程,并保证向后兼容,以确保结果可重复且过程可审核。
敏捷性:如果您需要修订数据科学流程,则需要立即对其进行部署。无需等待其他人重新编码或手动部署您的流程。当然,该自动部署也应该经过自动测试和验证步骤。
将AutoML添加到混合中
安装完集成部署工具后,添加自动机器学习解决方案也可以帮助您进行数据科学实践。有时,不必微调建模件;确保优秀的表演者(自动选择)足够好。
处理变更
现实世界是可怕的!外部环境的变化会导致您的数据发生变化,这将影响您的AI模型,这证明拥有一种方法可以使您不断监控模型的性能,自动调整模型的性能或在需要时触发数据科学干扰,这一点显得尤为重要,然后将模型快速,轻松,自动地重新投入生产。
包起来
数据科学正在发展。就像软件工程必须添加连续的集成和部署架构以变得真正专业一样,数据科学平台也需要支持对数据处理和建模以及后续部署的连续调整,而不会存在任何差距:没有切换技术,没有选项的损失,没有人为干预。