「龙猫数据」利用完善系统和高效管理为市场提供专业AI数据服务

人工智能产业中的数据服务环节日趋完善,有报道显示,2019 年,我国人工智能核心产业市场规模达到了105.5亿美元,其中基础服务市场规模约为21.1亿美元,这其中很大一部分是数据服务。
整个市场在多年前就有了对数据服务的需求。随着技术的发展,尤其是近年来我国在人工智能和物联网领域的发力,人机交互的场景变得越来越多,AI设备对数据类型的需求也更加丰富,图像、语音、文本、视频等数据类型都有着巨大的市场需求和训练价值。也正是基于这样的市场情况,昝智创办了北京安捷智合科技有限公司(龙猫数据),并实现了转型。
龙猫数据成立于2014年,是一家专业的AI数据服务公司。龙猫数据坐落于北京中关村科技园,在广州、河北、上海等地设立分支机构,致力于为整个AI产业提供图像、音频、文本、视频等领域的专业数据服务。创始人&CEO昝智毕业于中国人民大学,曾任豌豆荚商业产品负责人、百度商业产品经理,拥有十余年互联网产品设计、管理经验。
2016年,跟随着人工智能的崛起和市场对底层数据的需求,昝智带领龙猫数据实现了转型。如今龙猫数据可以为人工智能设备制造商及研发团队提供定制化的数据采集、标注服务,还可以为客户提供工具部署、BPO外包等个性化服务
人工智能设备的多样化带来了人机交互功能的多样化。以机器视觉为例,摄像头及视觉算法的普及使得人体特征变成了有效的操作信息,大量的人脸识别、五官识别、手势动作识别、肢体关键点识别功能被开发出来,用以完成解锁、认证、美化等任务。而实现这一切需要大量的训练样本。
语音领域也是如此,除了常见的普通话唤醒词之外,应用场景的长尾效应使得AI设备厂商不得不尽力涵盖所有可能出现的语音信息,这一点在语音指令环节尤为重要。
无论是智能音箱、家居、还是车载语音助手,由于使用者的不同,其接收的语音指令往往会出现方言、外语、口音区别,同样一种目的也存在不同说法,如打开空调就有可能出现开空调、温度调高/调低、太冷/热了等近百种方式。
昝智告诉创业邦:“除了语音识别,近年来语音合成领域也出现了越来越多的数据需求,因为只有拥有足够多的音频数据,厂商才能推出风格多样的合成语音产品。”
面对这样的市场环境,龙猫数据在转型之初就打造了“龙猫众包”数据服务平台,通过线上发布任务,建立规范化采集、标注、审核、质检、验收流程的方式完成数据的采集和标注工作。
昝智告诉创业邦:“众包模式看起来简单,但在数据采集、标注领域,杂乱无章的数据是不能为客户所用的,因此我们需要制定详细的采集、脱敏、标注、审核、质检方案,通过完善的流程确保数据安全可用。”
以图像标注为例,采集来的或者客户给到的图片首先需要进行脱敏,然后利用标注平台集成的AI自动标注功能对数据进行机器预标注,之后由标注员完成数据的标注、多轮次审核质检,数据最终流到验收平台由客户进行验收和下载,不合格数据则流回标注池重新标注。整个流程全程可视可控,保证了数据集的产出效率以及合格率。