AI企业如何完成大规模数据的版本管理

2021-10-20 19:56:01 网络阅读量:14633   会员投稿
imgad2

在人工智能产业中,数据资产是最容易被忽视的管理内容,而且随着业务的不断深入和递进,数据及其标注都在不断地增加和更新。在传统的管理方式中,每一次更新往往伴随着数据的一次全量复制和一次手动版本记录,由此引发的数据膨胀及衍生问题,往往需要耗费一个企业20%以上的时间和精力,在数据浩繁的自动驾驶领域所耗更甚,同时带来的,还有指数级增长的数据存储成本。

git工具的出现,大大提高了代码版本管理的效率,提升了软件开发行业的整体效率。在这样的背景下,AI基础设施建设者格物钛提出了“像使用git管理代码一样管理数据”的概念,并开发了对应的非结构化数据平台。

AI企业如何完成大规模数据的版本管理

格物钛数据平台能够帮助统一包括原始数据、元数据以及标注在内的所有信息格式,使得数据的版本管理变得轻量化,摆脱复杂冗余的传统文件夹版本管理方式,无需复制大量数据,只需要通过一键commit即可记录不同数据版本的索引变更,省时省力。同时支持用户自定义备注版本信息和版本标签,快速找到所需的版本。

AI企业如何完成大规模数据的版本管理

通过格物钛数据平台的版本管理,AI开发者能够在各个commit之间自由切换并查看diff,快速找到所需数据版本。同时支持可视化数据迭代过程,以列表和树状图的形式来查看数据的各个版本和分支,让数据的迭代和模型的迭代实现对应,帮助你通过对数据的洞察来提升迭代模型的质量。

AI企业如何完成大规模数据的版本管理
AI企业如何完成大规模数据的版本管理

当数据、标注或者元信息发生变更后,用户可以Commit一个数据集版本,添加commit message来记录具体的变更信息,也可以为重要的commit打上tag;也可以选择需要的版本,查看数据是否满足需求,再通过开发者工具基于该版本的数据开始新的模型迭代。

利用大数据和人工智能等技术为传统行业赋能,一个不容忽视的现象是视频监控和传感器等积累的非结构化数据呈指数级增长,如果缺少与之匹配的工具链和工作流程,将会对数据驱动的AI产品开发创新带来挑战。在智慧物流前沿领域,上汽安吉智能就选择了格物钛数据平台作为系统研发中的AI基础设施组件之一,保障算法团队在模型迭代中的高质量数据供给。针对不同客户的物流监控场景,安吉智能算法团队需要定制化准备数据集进行模型训练。通过格物钛数据平台的版本管理功能,安吉可以快速增加新数据和迭代新版本,清晰记录和追溯历史版本过程,精细化比较各领域客户数据和标注的差异,大幅提升版本迭代效率。

通常标注数据在质检之后会被直接灌入模型用于训练,但如果标注数据存在错误(如漏标、错标等),会对模型的识别能力产生很大干扰。格物钛的可视化组件让算法工程师既能从宏观层面了解数据集的特征分布,又能从微观层面查看单个文件和标注数据。这一功能可以让算法工程师在将数据用于训练前,直接查看标注结果,有效避免了因数据质量不达标,而产生的模型调试和标注返工损耗。

AI企业如何完成大规模数据的版本管理

事实上,除了版本管理,格物钛数据平台作为推动AI产业发展的数据引擎,所具备的数据集托管、自动化预处理、数据可视化、团队协同,以及各类开发者工具都能帮助算法团队实现更全面的非结构化数据管理。欢迎搜索格物钛,了解更多数据平台详情。