酒店
根据披露的机构调研信息,5月11日,南方基金对上市公司海天瑞声进行了调研。
基金市场数据显示,南方基金成立于1998年3月6日,截至目前,其管理资产规模为10707.62亿元,管理基金数493个,旗下基金经理共65位。旗下最近一年表现最佳的基金产品为南方中证互联网指数(LOF)A(160137),近一年收益录得33.84%。
南方基金在管规模前十大产品业绩表现如下所示:
(资料图片仅供参考)
基金简称 | 基金代码 | 基金类型 | 基金经理 | 规模(亿元) | 年涨跌幅(%) |
---|---|---|---|---|---|
南方现金通E | 000719 | 货币型 | 夏晨曦、董浩 | 1869.60 | 1.75 |
南方天天利货币B | 003474 | 货币型 | 夏晨曦、蔡奕奕 | 1609.81 | 2.14 |
南方收益宝货币B | 202308 | 货币型 | 董浩、蔡奕奕 | 641.22 | 2.13 |
理财金A | 000816 | 货币型 | 董浩、蔡奕奕 | 553.85 | 1.66 |
南方中证500ETF | 510500 | 股票型 | 罗文杰 | 499.19 | 4.21 |
南方薪金宝A | 000687 | 货币型 | 蔡奕奕 | 282.35 | 1.9 |
南方现金增利货币B | 202302 | 货币型 | 申俊华 | 149.65 | 2.04 |
南方1-3年国开债A | 006491 | 债券型 | 夏晨曦、朱佳、董浩 | 146.04 | 2.43 |
南方宝元债券A | 202101 | 债券型 | 林乐峰 | 118.27 | 0.23 |
南方天天利货币A | 003473 | 货币型 | 夏晨曦、蔡奕奕 | 109.83 | 1.9 |
(数据来源:同花顺(300033)iFinD)
附调研内容:
问:怎么看《生成式人工智能服务管理办法(征求意见稿)》对人工智能数据服务行业的影响?
答:《生成式人工智能服务管理办法(征求意见稿)》的拟定,对于促进我国生成式人工智能技术健康发展和规范应用将发挥引领性作用。《办法(征求意见稿)》当中的第七条、第八条、第十七条对生成式人工智能产品所涉及的训练数据来源的知识产权、征得个人信息主体同意、数据的真实性、准确性、客观性、多样性等合法性要求提出了明确要求,明确生成式人工智能产品提供者应当制定清晰、具体、可操作的标注规则,须对数据的来源、规模、类型、质量等进行描述,并必须要提供人工标注规则,人工标注数据的规模和类型等方面信息。
基于上述要求可以看出,《办法(征求意见稿)》对预训练数据、标注数据的合规问题等提出了更加严苛和复杂的要求,预期会使得预训练数据获取及标注成本的增加,出于投入产出比考虑,未来大模型厂商或将更倾向于将预训练数据采集、强化学习阶段数据标注工作交由第三方专业数据服务商完成,通过专业服务商的规模化应用降低数据使用成本。据此,高质量、规范化数据标注供给及know-how输出需求预期会逐渐增加。
问:大模型发展迅速,贵司是否考虑接入、使用大模型以提高数据处理效率?
答:大模型的发展不仅进一步抬升了AI市场空间,同时也为人工智能训练数据服务的发展提供了更好的便利条件。例如,大语言模型可在部分场景/领域的设计环节起到辅助作用;视觉类大模型也已具备通用物体的预识别及标注能力,从理论上,可更好辅助完成视觉类图片的预标注。未来,公司会持续积极探索,将适配于公司业务领域的大模型技术与公司的数据服务全流程进行更好的结合,以更好提升公司综合数据业务能力。
问:请介绍公司目前大模型订单情况及未来订单预期?
答:从目前一季度的情况来看,公司的大模型订单主要集中在强化学习阶段的数据处理需求,例如对prompt的内容回复续写、机器生成内容的评分等等。
未来,我们认为大模型数据服务需求将进一步释放,数据服务类型将逐渐向合规、综合解决方案、标准化产品等方向演进。
一方面,国家对于人工智能行业的监管以及由此带来的合法合规性要求的提升,将进一步刺激行业释放增量数据需求。《生成式人工智能管理办法(征求意见稿)》出台后,对预训练以及强化学习阶段的数据处理提出了更高的要求,明确生成式人工智能产品所涉及的训练数据来源的知识产权需要征得个人信息主体同意,并对数据的真实性、准确性、客观性、多样性等合规性提出了明确要求,以上均使得大模型厂商原始数据获取难度及成本的大幅增加,出于投入产出比考虑,行业将释放出更多预训练、强化学习以及垂向拓展阶段的数据需求,以保障数据处理全流程的合规要求,预期进一步驱动大模型的数据处理需求的增长。
另一方面,数据质量已成为决定大模型效果的核心要素之一,因此若想更好更快提升模型训练效果,各类大模型厂商预期会更加依赖具备丰富经验的第三方数据服务商,行业内或将释放出更多数据解决方案以及成品数据集需求。
问:了解到海天的数据产品已经入驻北数所,并开始了实际的数据交易,想请问公司入驻数据交易所对公司数据交易带来哪些变化?除了交易,公司是否可以参与到交易流通的其他业务环节?
答:2021年3月北数所成立之初,海天就受邀加入了其牵头成立的北京国际数据交易联盟,并在2021年9月至10月上线了若干款数据产品。北数所的数据交易平台,为海天等数据服务商搭建和扩充了数据交易渠道,通过平台实现点对面,极大的扩充了数据产品的辐射范围。相信未来,随着交易平台的逐渐完善和影响范围的持续扩大,通过北数所数据交易平台的买家将陆续增多,公司将获得更高的客流量入口。此外,随着国家近年来对数字经济的重视,国家层面大力培育和发展数据要素市场,北京、上海、深圳等地陆续成立了数据交易所,促进数据要素交易和流通。海天瑞声也积极加入了北京、上海数据交易所,成为首批数据服务商。未来海天瑞声也将依托国家政策和各领域平台建设,积极探索拓展服务边界,在数据交易流通中更多环节发挥更大的作用和价值。
问:公司在数据要素方面有什么规划?
答:数据要素已经成为国家发展数字经济的重要抓手,22年底国家出台了数据要素二十条,明确建立高效合规的数据要素流通和交易机制,海天作为人工智能数据的重要生产和参与者,也正在积极对接和参与数据要素流通环节,同时借助数据交易所等平台,进一步扩大公司数据服务的辐射范围。此外,国家为更好发挥数据要素作用,鼓励在充分利用社会数据的基础上,进一步释放公共数据价值,从机制和政策设计上全面支持公共数据的开放,未来,海天也将抓住这个机遇,结合时下人工智能发展阶段,进一步探索将公共数据和社会数据全面结合,更好通过数据服务于大模型等新兴人工智能需求。
问:决定智能驾驶数据业务市场需求空间的因素有哪些?未来智能驾驶的数据需求如何?
答:智能驾驶数据业务的市场需求主要与三个要素相关:1)车厂的车型及传感器丰富度。通常来说,不同车型、不同传感器会有不同的硬件配置方案,继而需要不同的数据解决方案,因此车型/传感器等硬件配置的多样性程度将会直接影响所需数据解决方案的数量;2)量产车数量。量产车的数量决定了整个的训练数据需求基数的大小;3)智能驾驶级别的逐渐提升。智能驾驶级别和渗透率的提升决定了数据处理场景的种类和体量。
这三个要素对训练数据需求的影响是相互叠加的。公司预测,随着智能驾驶相关政策的推出以及单车成本的不断下降,智能驾驶的商业化进程将加速,在上述三个因素的共同作用下,数据处理需求将呈现指数级增长趋势。
问:智能驾驶行业的核心竞争力是什么?
答:智能驾驶数据领域的核心竞争力主要体现在三个方面,分别是平台能力、算法能力以及数据安全能力。
平台能力是数据标注能力的基石。平台功能点覆盖的丰富度是评价平台水平的核心要素,目前同时具备2D标注、3D点云标注、2D-3D联合标注以及3D语义分割标注的供应商比较有限,能以最快速度覆盖更多功能需求的数据服务商将能更好掌握智能驾驶数据市场的主动权以及议价能力。
第二个核心要素是算法能力。平台的智能化程度越高,对人的依赖程度越低,在提高平台的生产效率的同时可以大幅降低生产成本。
第三个要素是数据安全能力。智能驾驶数据不同于传统的语音类数据,由于其采集图像涉及大量的地理及个人隐私信息,为更好防范数据安全风险,国家近年密集出台相关法律法规,要求数据流转链条上各类企业必须做好充分的数据安全保障。去年8月底,自然资源部发布《关于促进智能网联汽车发展维护测绘地理信息安全的通知》,《通知》明确说明将对数据服务全链条进行监管,包括采集、标注处理等在内的各类业务形态均被纳入监管范畴,且明确规定内资企业需获得测绘资质才能从事测绘相关活动(外商投资企业则不能申请测绘资质)。可以看出数据安全的重要性更加凸显,未来不具备相关数据安全能力的供应商将逐渐被市场淘汰。
问:我们标准数据集是如何积累的?
答:公司标准数据集产品的积累方式主要为基于公司对市场需求趋势的判断和共性需求的提炼能力,先于客户需求开发数据集。数据集产品的这种商业模式在行业内往往具有较高壁垒,一方面需要公司对未来需求趋势有精准把握,另一方面由于产品开发属于先投入后产出,因此需要公司具备充足的资金保障,只有具有大量行业经验+know-how积累以及资金充足的企业,才能具备产品开发能力。因此,产品模式也成为公司区别于其他竞争对手的一大特色,目前公司产品数据集储备已处于行业头部水平,产品的积累对公司未来的收入扩张和毛利提升都将起到重要作用。
问:标准化产品数据集业务与定制化服务业务的区别是什么?客户会如何选择?未来的发展趋势如何?
答:区别:产品数据集是先于客户需求形成的模拟数据,是公司区别于其他竞争对手的一大特色,基于公司对市场的判断和通用化需求的提取能力,其属于是一次性投入、未来重复授权销售,对于公司的营收、毛利有着重要作用;而定制业务的需求来源是客户的定向化需求,有些定制业务的原始数据来源是客户提供的实网数据,公司提供纯加工的服务。
客户的AI产品在上线之前及初期,因为其自身尚未产生实网数据,通常需要采购模拟型数据集进行算法模型的训练,在产品上线并运行一段时间、产生大量实网数据之后,则会提供实网数据给到我们进行数据加工,加工的数据反哺到客户的产品上从而促进其产品的迭代、升级。之后,客户需要进行产品功能或语种的拓展,再次需要购买模拟数据集来支撑,后续再采购数据加工服务进行迭代。
产品+服务的组合一直是公司向市场提供的综合解决方案,是一个整体,服务于不同客户的不同研发阶段需求,其收入贡献比例在各年间也呈现较为一致的趋势。而产品+服务带来的数据积累,也哺育了公司的数据处理平台和相关算法不断提升,努力达到数据处理场景下的行业最优。
未来,如果把垂直行业数据这个大领域放进来考虑,那么先期,更高要求的定制化服务业务的占比可能会逐渐上升,以智能驾驶为例,客户对于数据服务商的主流需求其实是一体化、闭环式的数据解决方案,这就需要类似于海天瑞声这样的数据服务商有能力为客户提供从数据采集、处理到训练、仿真、测试、验证的完整闭环服务,以满足客户的数据处理量更大、数据处理的迭代频次更高等需求特点。但在定制化服务提供过程中,公司将发挥在语音领域一样的特点,提取标准化需求,在垂直行业领域也构建建设自身产品体系的能力,形成有价值的行业数据集。
问:行业的竞争格局现在及未来是什么样的?未来市场集中度将如何变化?
答:目前来看,市场上数据服务市场主要由品牌数据服务商、客户自建团队以及一些中小数据服务商构成。
未来,公司预判整个数据服务市场将进行重新洗牌,集中度将进一步提升。市场各类主体将会通过在技术研发投入、资源能力建设等主要方面的竞争,逐步淘汰掉那些研发能力弱、资源势力差的品牌服务商和中小玩家。此外,国家对于数据安全及合规要求的进一步趋严,会将那些不具备数据安全合规能力或尚未进行此方面布局的企业逐渐淘汰出局。
在客户自建团队部分,出于其自身对数据和业务的敏感性、保密性需求,可能会与品牌服务商长期共存。
问:请介绍一下公司在训练数据领域的竞争优势
答:经过多年发展与积累,公司逐步构建起了在行业内的竞争壁垒,核心竞争力主要体现在:
(1)公司的业务模式是服务产品双模式,且产品化贡献显著,是收入和毛利的主要来源,标准化数据集的研、产、销体系是公司从业多年探索出来的业务模式,其复用性为公司的规模化和高利润率提供了保障。而保持这样的能力需要具备对行业需求的强判断力和较强的资金实力。截至2022年12月末,公司已积累1,334个自有知识产权的训练数据标准化产品,数据库存量稳居全球企业前列。
(2)技术平台能力:公司历来重视技术的研发,近年来更是加大研发投入的力度,全面提升公司的算法能力、平台能力、工程化能力,加深算法辅助能力与人工工作的结合,达到更佳的人机协同效率,这样能够做大规模、提升效率、降低成本。
(3)供应链资源管理能力:公司通过长期建设的供应链体系,保障资源的获取,未来,公司会进一步加大供应链资源平台的建设,使人员管理、采标资源分配、质量检验、远程工作等各方面的能力得到显著提升,为客群拓展提供有力支撑。
(4)数据安全及合规能力:数据安全及合规能力已经成为了衡量品牌数据服务商综合能力的重要指标。公司在多年数据风险识别和管理实践中,已形成了较为成熟的安全、合规管理体系。
公司全方位做好数据风险管控工作,通过了业内重要的ISO/IEC27001体系认证、ISO27701个人隐私信息安全管理体系认证,形成了具有自身特色的数据安全与隐私保护整体解决方案。22年内,公司获得了北京市规划和自然资源委员会行政许可,获得乙级测绘资质,为公司智能驾驶采集业务拓展奠定基础;同时开展信息系统等级保护测评工作,获得等保三级备案证明;目前,公司符合GDPR、《数据安全法》、《个人信息保护法》等一系列国际通用与国内法律法规的管理规范要求,获得了业务领域合作客户的高度认可;
关键词:
攻略
装备
商城