AI基础数据服务:解锁智能发展的无限潜能

AI基础数据服务行业正蓬勃发展,作为人工智能技术的基石,该行业通过高效、精准的数据处理与标注,为AI模型训练提供关键支撑,推动技术创新与应用落地,开启智能时代新篇章。

文|融中财经

(1)AI基础数据服务定义及产品分类

人工智能基础数据指可用于人工智能模型训练、校验、应用的数据,包括视频、图像、图片、语音和文字等。人工智能基础数据服务是人工智能产业链的一环,负责提供高质量的数据支持,以满足AI算法训练及优化,其服务内容涵盖数据库设计、数据采集、清洗、标注和质检等,核心为数据采集、标注服务。

人工智能基础数据服务主要围绕客户需求展开,产品以数据集与数据资源定制服务为主。数据集产品通常是人工智能基础数据服务商基于自身积累产出的标准数据集,其通用性较强,适用于多种应用场景,可以直接用于AI模型的训练和开发。数据资源定制服务是根据客户的特定需求,对数据资源进行收集、整理、分析、加工,最终制作特定数据集。此外,AI基础数据服务厂商还可提供基础数据服务配套产品工具,包括标注工具、实训平台及AI模型评测等软硬件工具服务,用于满足高效标注数据、培训数据标注、评估AI能力效果等不同层次的客户需求。

(2)AI基础数据服务主要环节

具体来说,基础数据服务主要为数据采集和数据标注两大类服务。数据采集及数据标注又可根据计算机视觉、语音识别、自然语言处理划分为三大应用场景。

在数据采集层面,计算机视觉类别包含图像抓取、图像采集、人像采集、视频采集、自动驾驶道路采集等。语言识别包含唤醒词采集、ASR语音采集、TTS语音采集等。自然语言处理主要包含网页抓取、常用对话信息采集等。

在数据标注层面,计算机视觉类别包含了图像语义切割、图片分类、图片框选、人脸骨骼打点、3D点云、2D 3D融合标注、连续帧标注、视频分类、视频内容提取等。语音识别类别包含了语音清洗、语音转写、语音切分、因素标注等。自然语言处理类别包含了文本清洗、文本分类、文本富集、OCR转写、情感标注、NLP标注等。

具体来说,基础数据服务主要为数据采集和数据标注两大类服务。数据采集及数据标注又可根据计算机视觉、语音识别、自然语言处理划分为三大应用场景。

在数据采集层面,计算机视觉类别包含图像抓取、图像采集、人像采集、视频采集、自动驾驶道路采集等。语言识别包含唤醒词采集、ASR语音采集、TTS语音采集等。自然语言处理主要包含网页抓取、常用对话信息采集等。

在数据标注层面,计算机视觉类别包含了图像语义切割、图片分类、图片框选、人脸骨骼打点、3D点云、2D 3D融合标注、连续帧标注、视频分类、视频内容提取等。语音识别类别包含了语音清洗、语音转写、语音切分、因素标注等。自然语言处理类别包含了文本清洗、文本分类、文本富集、OCR转写、情感标注、NLP标注等。

图表1 数据采集和数据标注应用场景

信息来源:融中研究整理

(1)数据采集

数据采集,即获取并汇集数据的过程,依据基础数据的属性,可将其划分为公权机构数据、法人私有数据及开源网络数据三类。公权机构数据是指公权机构在依法履职的过程中基于履行公职的需要收集和产生的数据;法人私有数据是指由法人自己生产、自己保管、供内部使用、不对外公开的数据;开源网络数据指通过公开渠道可获取的数据资源,涵盖政府公布的经济与交通数据、企业公开的销售及管理数据,以及互联网用户产生的行为与社交数据等,属网络空间中的自然存在、未经加工的原始数据,此类数据体量庞大,缺乏明确归属者,特征表现为海量、碎片化、无序、广泛分布。数据采集主要分为线下采集和线上采集两种方式。线下采集通常适用于采集主观性数据,主要包含问卷调查、用户访谈、实地调研等方式,线上采集依据数据来源的差异可细分为以下几种方式:

1、网络爬虫技术:用于自动化抓取互联网上的公开数据;

2、API接口:实现与第三方系统或平台的数据交换;

3、传感器设备与RFID技术:用于物联网环境中的物理数据监测;

4、数据埋点:在应用程序或网站中预设点位以追踪用户行为数据。

图表2 数据采集方式

信息来源:融中研究整理

通过上述方式采集数据后,获取的数据一般有三种类型,即结构化数据、非结构化数据、半结构化数据。

1、结构化数据:是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,这些数据不需要进行转化就能直接进行标注。

2、非结构化数据:没有明确的格式或结构,不适于由数据库二维表来表现,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等,这些数据需要转化为结构数据才能用于AI算法模型的训练,往往占企业数据的半数以上,并且每年高速增长。

3、半结构化数据:是介于结构化数据和非结构化数据之间的数据,它并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。非结构化数据占企业数据的80%以上,并且以每年55%~65%的速度增长。非结构化数据可以训练出强大的自然语言处理,计算机视觉和语音识别算法。这些算法能更好地理解和模拟人类的行为和思维,从而实现更准确的预测、更智能的决策和更出色的用户体验。非结构化数据的有效利用,是推动AI技术发展的关键。(2)数据标注数据标注服务是为机器学习和人工智能算法准备训练数据时,人工或专家为每个数据样本分配正确的标签或类别,以便让算法能够学习和理解不同的模式和关系。这些标签可以是文本分类中的标签,图像识别四中的物体类别,语音识别中的语音命令,或者其他各种形式的标记。目前数据标注有3种常用的划分方式:1、按照标注对象进行分类:包括图像标注、视频标注、语音标注和文本标注;2、根据标注的构成形式:分为结构化标注、非结构化标注和半结构化标注;3、根据标注者类型:分为人工标注和机器标注。

图表3 数据标注常见分类方式

信息来源:《数据标注研究综述》、融中研究整理

常见的数据标注任务包括分类标注、标框标注、区域标注、描点标注和其他标注等。

1、 分类标注:也称为标签标注,是从给定的标签集中选择合适的标签分配给被标注的对象,是数据标注中最基础的形式;

2、 标框标注:可细分为多边形拉框和四边形拉框两种形式,主要用于机器视觉任务,用来从图像中选出要检测的对象;

3、区域标注:比标框标注要求更加精确,要求标注者勾画出对象的边缘,且边缘可以是柔性的,从而更准确地识别对象的形状和轮廓;

4、描点标注:指将需要标注的元素按照需求位置进行点位标识,从而实现特定部位关键点的识别,常用于人脸识别和骨骼识别。

除了上述几种常见的标注方法外,还有一些根据特定需求而定制的个性化标注方法,这些方法可能包括特殊的标签或标记系统,以适应特定的数据集和任务。

数据标注服务在许多人工智能项目中发挥了关键作用,特别是在需要大量训练数据的机器学习应用中。数据标注服务可以帮助企业或个人开发者快速获取高质量的训练数据,从而提升AI模型的精度和效果

(3)AI基础数据服务生产过程

(1)方案设计:在构建数据集之前,首先需要根据客户需求以及自身专业经验,明确数据集的目标,设计拟开发的数据集结构。该阶段需要综合考虑算法模型的具体应用领域、应用场景以及预期训练效果,反推数据集内的数据类型、数量、比例分布等,并明确原料数据的采集标准,为后续采集工作奠定基础。(2)数据采集:根据设计好的数据集结构,规划并执行原料数据采集方案,组织原始数据的收集工作。采集方案包括确定数据采集的来源、方法和频率,可以通过网络爬虫、传感器数据收集、调查问卷等方式进行数据采集,采集过程中需要考虑数据采集的数量规模及数据属性。(3)数据清洗:鉴于采集到的数据可能存在缺失值、噪声及重复项等问题,需要进行数据清洗,包括去除重复数据、填补缺失值、纠正错误数据等步骤,保障数据的准确性和一致性。数据清洗作为数据预处理中的关键环节,清洗后数据的质量对AI算法的有效性起决定作用。

图表4 数据清洗流程图

信息来源:融中研究整理

(4)数据标注:数据标注是数据集生产中最重要的一个环节,是使算法模型能够识别相关数据的关键步骤。在具体流程中,管理员会根据不同的标注需求,将待标注的数据划分为不同的标注任务。每一个标注任务都有不同的规范和标注点要求,并且一个标注任务将会分配给多个标注员完成。

图表5 数据标注基本流程

信息来源:《数据标注研究综述》、融中研究整理

数据标注员完成标注工作后,将相关数据交给模型训练人员,后者利用这些标注好的数据来训练出需要的算法模型。标注数据的质量主要由审核员来检验,审核员进行模型测试并将测试结果反馈给模型训练人员,而模型训练人员通过不断地调整参数,以便获得性能更好的算法模型。如果经过参数调整后不能得到最优的算法模型,则说明已标注的数据不满足需求。这时,审核员就会向标注员反馈数据问题,标注员则需要重新标注数据。最后,审核员将最优模型指标发送给产品评估人员使用,并进行上线前的最后评估。

(4)AI基础数据服务政策梳理

AI基础数据服务行业主管部门是国家工业和信息化部,行业内部组织管理机构主要是中国软件行业协会和中国人工智能产业发展联盟。随着信息技术的快速发展,数据已经成为国家经济和社会发展的重要基础要素之一,释放数据要素价值,有助于提升全要素生产率,赋能现代化经济体系高质量发展。近年来,为促进数据要素的高效利用和数字经济的发展,国家陆续颁布了一系列政策措施。

图表6 AI基础数据服务相关政策梳理

信息来源:融中研究整理

智算中心行业的竞争格局展现出高度多元化与激烈竞争的特点。主要竞争者涵盖了电信运营商、互联网企业、IT设备供应商以及新兴的专业智算服务提供商等多个维度。

20世纪90年代,机器学习还未主导AI产业,训练数据主要由程序员提供,他们根据模型行为编写代码,不断设计新规则来评估模型输出,从而提升模型效率。

萌芽阶段(2000-2005):首个主要数据集问世,其诞生过程极为缓慢,高度依赖资源且成本高昂。高昂的标注训练数据费用极大地制约了机器学习的发展,致使学术界长期聚焦于在数量相对有限的规范数据集上测试各种算法,这一趋势至今仍未有太大转变。

起步阶段(2005-2010):2007年,斯坦福大学教授李飞飞等人开始启动ImageNet项目,该项目主要借助亚马逊的劳务众包平台Mechanical Turk来完成图片的分类和标注,以便为机器学习算法提供更好的数据集。同时,一些计算机视觉和人工智能领域的专家开始意识到数据标注的重要性,并进行了简单的数据标注工作。

探索阶段(2010-2016):2010年语音识别和计算机视觉领域产生重大突破,国内AI概念随之兴起。为了提高算法准确率,AI基础数据服务需求快速增长。由于AI基础数据服务门槛相对较低,众多人员与机构涌入这一领域,但部分机构或个人因缺乏专业标注技术与经验,导致标注数据的质量参差不齐。

快速发展阶段(2016-2022):随着AI技术的不断成熟和应用场景的不断拓展,垂直场景的定制化数据采标需求逐渐凸显,对数据类型、质量等要求明显提升,头部企业凭借自身技术实力、数据积累、行业经验等方面逐渐凸显出优势。

成熟阶段(2022-至今):2022年以来,AIGC产品集中爆发,高级别自动驾驶需求加速释放。传统人工标注的效率难以匹配算法需求,自动化机器标注技术得以迅速发展,增加机器能够标注的维度,提升机器处理数据的精度是提高效率上限的重要方法,掌握高效、准确的自动化标注技术将为企业构筑新的核心竞争力。

AI基础数据服务产业链上游主要包括数据生产者、产能资源提供者及IT基础设施。具体而言,数据源自个人用户、企事业单位及政府机构;产能资源则由人力资源外包商及个体提供;IT基础设施包括硬件设备、软件系统、网络、数据中心及安全设施等,支撑企业的生产运营。

图表7 基础数据服务产业链上游构成

信息来源:融中研究整理

(1)数据供给方

(1)行业概况

数据供给方作为数字经济时代的基石之一,广泛涵盖了个人、企业与组织,数据可分为公权机构数据、法人私有数据和开源网络数据。公权机构数据是指公权机构在依法履职的过程中基于履行公职的需要收集和产生的数据;法人私有数据是指由法人自己生产、自己保管、供内部使用、不对外公开的数据;开源网络数据指通过公开渠道可获取的数据资源,涵盖政府公布的经济与交通数据、企业公开的销售及管理数据,以及互联网用户产生的行为与社交数据等,属网络空间中的自然存在、未经加工的原始数据。此类数据体量庞大,缺乏明确归属者,特征表现为海量、碎片化、无序、广泛分布。

近年来,数据供给行业规模呈爆发式增长,产品类型与服务日益多样化。部分供给方专注于特定领域,如金融、医疗、零售等数据的提供;而另一些则提供综合性解决方案,涵盖数据采集、标注等服务。此外,还有供给方通过构建数据平台或市场,促进数据交易与共享。然而,行业发展亦面临多重挑战。一方面,市场规模的扩大吸引了众多新进入者,加剧了市场竞争;另一方面,数据质量与安全问题成为行业发展的瓶颈。

(2)发展现状

根据IDC发布的Global Data Sphere2023报告,全球数据领域正经历着迅速的增长。预计从2022年开始,全球数据量规模将经历显著的扩张,其中中国的数据量规模将成为引领全球的主要推动力。报告指出,中国的数据量规模将在未来的五年内实现快速增长,预计从2022年的23.88ZB达到2027年76.6ZB。这表明中国的数据生态系统将以惊人的速度不断扩大。年均增长速度(CAGR)达到26.3%,成为全球增长最迅猛的地区,走在全球数据潮流的前沿。

图表8 2022-2027年中国及全球数据量规模(单位:ZB)

信息来源:IDC《Global Data Sphere2023》、融中研究整理

得益于政策环境、经济环境的支持,中国数据交易行业在过去两年内经历了快速增长的发展阶段。根据弗若斯特沙利文数据 ,2021-2022年中国数据交易行业市场规模由617.60亿元增长至876.80亿元,年增长率约为42.0%,增速明显。预计未来,中国数据行业市场规模仍将呈现稳步增长的趋势,到2025年中国数据交易行业市场规模有望达到2046.0亿元,到2030年中国数据交易行业市场规模有望达到5,155.9亿元,2025-2030年复合增长率约为20.3%。(3)竞争格局当前,数据供给市场呈现出高度集中的态势,平台厂商凭借其规模经济、技术积累和用户基础等优势,形成了显著的垄断优势。百度、阿里巴巴、京东等大型科技企业,凭借其大型数据平台、完善的基础设施、先进的数字技术以及庞大的用户群体,不仅能够在数据采集过程中实现边际成本的显著降低,还能够通过数据积累与分析,进一步巩固其市场地位。(4)发展趋势

随着技术的持续进步与数据采集手段的多样化,数据供给方如今能广泛收集并处理来自多领域、多渠道的数据,为数据应用提供了更广泛的基础。数据使用监管的强化及数据隐私保护法律法规的逐步完善,特别是对于个人隐私权、肖像权及个人真实信息等敏感数据的保护力度显著增强,促使企业加大数据安全技术的研发投入,确保数据的保密性与安全性。此外,数据安全标准的提升及相关资质要求的严格化,使得上游市场的准入门槛不断提高,一些小型或不具备相关资质的企业难以进入市场,而具备较强技术实力和数据处理能力的头部厂商则更容易获得市场份额。因此,数据供给市场的集中度将向头部厂商聚集,形成更加稳定的竞争格局。

(2)产能资源提供方

国家对智算中心行业的监管政策日益完善,旨在规范行业发展,保障数据安全和个人隐私。主要政策包括:《网络安全法》:该法于2017年正式实施,强调了对网络安全的全面保护,要求企业加强网络安全防护,防止数据泄露、篡改和损毁。对于智算中心行业而言,这意味着必须建立健全的网络安全管理体系,确保数据在传输、存储和处理过程中的安全性。同时,该法还规定了数据跨境传输的限制,要求企业在传输数据前需经过相关部门的安全评估。《数据安全法》:该法于2021年生效,明确了数据安全责任和义务,加强了对数据全生命周期的安全管理。智算中心作为数据处理和存储的重要场所,必须严格遵守该法的规定,确保数据的收集、存储、使用、加工、传输、提供、公开等环节都符合法律法规的要求。此外,该法还鼓励企业采取数据加密、访问控制等技术手段,提升数据安全保障能力。(3)相关鼓励扶持政策……(全篇内容阅读原文获取)

(1)AI基础数据服务发展现状

2022年,以ChatGPT等为代表的AIGC技术应用火遍全球,大模型技术取得的突破使人工智能技术发生了深刻的变革,这一突破离不开高质量数据的发展。可以说,数据已成为未来人工智能竞争的关键要素,人工智能正在从“以模型为中心”加速向“以数据为中心”转变。伴随着大模型时代的到来,通用人工智能(AGI)产业正迎来爆发期,更加需要大规模高质量、多样化的数据集提升模型效果和泛化能力。

根据AI基础数据服务厂商LXT对美国AI相关企业的调研,训练数据投入占AI总投入的15%。另外,61%的企业预测未来2-5年数据需求量将会增长。

图表9 企业人工智能建设的预算分配情况

信息来源:LXT,the pace to AI Maturity 2024、融中研究整理

当前,AI大模型数据服务市场正处于快速发展阶段。随着AI技术的广泛应用,全球对高质量数据的需求不断攀升,推动了数据服务市场的扩张。根据德勤数据,中国AI基础数据服务市场规模由2017年的8.2亿元增长至2022年的45.0亿元,年均复合增长率达41%

图表10 2017-2023年中国人工智能基础数据服务市场规模(单位:亿元)

信息来源:德勤《2022年人工智能基础数据服务白皮书》、融中研究整理

(2)AI基础数据服务竞争格局当前,AI基础数据服务主要参与者包括科技巨头、专业型基础数据服务商、人力资源外包商。其中,科技巨头近两年发展迅猛,市场份额大幅提升;专业基础数据服务商因布局早、服务经验丰富,仍占据较大市场份额;人力资源外包商受限于自身成本投入及专业能力,市场份额相对较小。从AI基础数据服务供应市场来看,主要划分为需求方自建团队、品牌数据服务商和中小数据供应商三种类别。需求方自建团队因为自身对训练数据的需求量较为庞大,成为市场的主要供应力量;而中小供应商因专业能力难以匹配日益提升的高质量数据需求,其市场份额相对较低。

图表11 AI基础数据服务主要市场参与者

信息来源:融中研究整理

(3)AI基础数据服务商业模式

AI基础数据服务属于to B业务,根据生产模式的不同,主要可以分为众包平台服务商、自建外包一体化服务商。众包平台服务商主要连接客户与大众志愿者,对接客户的数据标注需求,根据需求分发任务包给大众志愿者,形成“需求客户-众包平台服务商-大众志愿者”的众包结构。自建外包一体化服务商则自行组建全职采标团队,并会将部分任务外包给其他标注基地或团队。当前,两种身份的服务商存在交叉关系,即部分企业兼具双重身份。在众包与外包模式下,服务商能更专注于数据集产品的开发与项目执行,而自建模式则利于服务商培养专业的执行团队,深化对数据集产品的认知。随着市场需求的变化,众包形式因专业性与稳定性等缺陷,其业务支撑力或将逐渐减弱。

图表12 基础数据服务商生产模式

信息来源:融中研究整理

依据产品类型的不同,商业模式有所差异。标准化产品通常由服务商依据自身积累开发,享有数据集的知识产权,经一次性投入生产后,可多次销售并获取授权许可收入。定制服务通常由服务商依据客户资源生成数据集,服务商仅享有服务费收入,不拥有知识产权,且不可重复销售;基础数据服务配套产品工具,服务商通常以软件平台形式授权给客户,从而获取资产使用权收入和技术服务收入。

(4)AI基础数据服务主要企业分析

(1)北京海天瑞声科技股份有限公司……(全篇内容阅读原文获取)(2)数据堂(北京)科技股份有限公司……(全篇内容阅读原文获取)(3)Appen……(全篇内容阅读原文获取)

(5)AI基础数据服务技术趋势分析

随着下游应用领域的不断拓展,对基础数据服务商的技术要求也随之提高,未来AI基础数据服务技术发展趋势主要体现为以下几个方面:

(1)标注复杂化:随着算法的不断创新和应用场景的扩展,数据标注的元素和信息维度大幅增加,对AI基础数据供应商专业的标注能力提出了更高的要求。

(2)自动化标注:AI赋能的自动标注工具逐渐成为降低成本和提高效率的重要手段,自动化标注技术的发展使得基础数据服务商能够更好地应对大规模数据处理的需求。

(3)全栈式服务:下游算法应用方越来越倾向于自研人工智能算法,对于“基础数据服务+云资源+工具链”的全栈式服务需求也随之增加。特别是对于工具链产品的需求将随着商业化场景的成熟而向各行各业拓展,以适应未来的迭代需求。

(4)智能化升级与数据安全管理:头部企业已在数据采集、标注、质检等环节引入算法辅助,智能化人机耦合的数据服务模式将大幅提高产能和质量,降低成本。同时,数据安全管理也成为企业生存的关键,需要不断加强技术投入和管理措施。

声明:本文内容仅代表该投稿文章作者观点,不代表蓝鲸号立场。 未经授权不得随意转载,蓝鲸号保留追究相应责任的权利
推荐话题