垂直行业数据集的采集,例如交通行业内的自动驾驶领域,则存在准入资质、技术难度(包括但不限于对于交通场景、车辆传感器等要素的综合理解和实施能力)等方面的门槛。 数据标注环节的难度在于面对大量的数据标注需求,如何快速的找到充足的资源,而且通过算法平台实现机器的辅助标注,并在人机协作过程中,寻找效率与质量的最佳平衡,在提升数据标注效率、保证数据质量的同时降低成本。 7、标品化的产品数据集业务与定制化服务业务的区别是什么? 产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。 客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。 8、训练数据产品和服务的定价模式、收费模式是什么样的? 定制服务定价模式:一般采用成本加成定价法。公司根据客户的具体服务需求预估项目成本,在预估成本的基础上,参考公司制定的指导毛利率水平,结合项目技术难度、复杂程度、时限要求等进行报价,并根据市场环境与客户协商,最终确定价格。 产品定价模式:一般采用需求导向定价法。公司综合考虑训练数据集的开发支出、市场需求程度、预计未来重复销售的频率等因素,制定产品标准价格及价格区间,在销售过程中,根据客户的实际需求情况,以价格区间为基础向客户报价,经双方协商确定最终销售价格。训练数据产品通常以单个数据集为单位进行定价,定价比较灵活。 9、定制数据逐渐积累,是否可以转化为自有的数据产品? 客户定制服务涉及的训练数据在交付给客户并完成验收后,所有权完全转移给客户,海天瑞声是不能用于自身产品建设的,这一点是公司始终遵循的知识产权要求。 在定制数据集的生产过程中,积累下来的经验、know-how会帮助公司各方面能力的提升,例如工具平台因为处理了大量的定制数据集,使平台完善性有很大的增益,加强了公司的数据处理能力;再如,在一些情况下,公司在生产定制数据集时,也会根据对行业需求的判断,在保障数据权属划分清晰的前提下,利用团队管理、资源获取的便利性,同步安排额外的设计、采集和标注工作,完成产品数据集的开发。 10、行业里的玩家增多,会不会出现价格战? 是否存在价格竞争主要取决于该领域是否较为存在较高壁垒。在较为成熟的细分方向,比如中文智能语音数据领域,确实存在进入者增多、价格竞争的情况;但对于外语种领域,数据服务商则会有更高的议价空间。所以,未来公司将主攻有较高技术壁垒,存在较大毛利空间的细分场景,尽力避免价格竞争带来的过度消耗。 此外,公司也将通过持续的专项研发投入及研发升级,进一步提高自研平台能力,通过智能化促进产能提升、效率提升、成本降低实现规模效应和盈利能力的提升。 以上内容与数据,与界面有连云频道立场无关,不构成投资建议。据此操作,风险自担。lg...