抢人、抢数据，AI原生应用“难产”困局_复兴网_复兴新闻网

国内已经涌现出了数量相对庞大的大模型，而与之相对的，基于大模型的应用产品数量却仍然较少。这也牵扯出一个问题，即AI原生应用的发展，究竟面临着哪些困局？一起来看看这篇文章的解读与分析。

图源：谷歌

无论是原生应用还是其底层基础大模型，数据至关重要。然而，高质量的语料匮乏已成为限制这一领域发展的关键瓶颈之一。

业内人士指出，尽管公有数据如互联网上的信息易于获取，但质量和针对性往往难以满足专业模型的需求。

相比之下，私有数据具有高度的专业性和针对性，对于训练精准的垂直类模型具有极高的价值。

以医疗数据为例，获取高质量的数据集至关重要，但由于医疗数据的获取和标注需要大量的人力、物力和时间，因此其成本相对较高，获取的渠道也十分有限。这类数据不仅难以在互联网上找到，而且由于涉及个人隐私，获取和使用也需遵守严格的法规和伦理标准。

浦因科技（上海）有限公司首席科学家秦兴虎告诉《IT时报》记者，在其所负责的医学大模型项目中，团队初期购买了英国生物银行的公共数据进行大模型训练，这些数据主要来自欧洲人群。为确保模型在国内的普适性，他们还需要使用中国人群的数据来更新和训练模型，这在无形中增加了项目成本。

对于国内企业而言，他们还面临着即使有钱也难以购买到合适数据的困境。中文语料库的内容相对匮乏，进一步加剧了数据获取的挑战。

因此，对于企业来说，如何合法、有效地获取和使用高质量数据，将其转化为模型训练、开发AI原生应用的宝贵资源，确实是一个重要的战略问题。

五、人才之困：5个岗位争夺2个人才

AI原生应用作为大模型产业的核心产品，在研发和落地试错过程中面临诸多不确定性。人才成为决定成功与否的关键因素，也成了现阶段大模型竞争中的重要砝码。

关于国内人工智能人才的储备，回顾中国的大模型产业发展史，可以发现“清华系”的身影无处不在。

当国内对人工智能的研究还是一片空白的时期，清华大学最早开出的人工智能课程，也孕育出了目前国内人工智能领域的熠熠群星。无论是王小川还是智浦AI联合创始人唐杰，抑或欲打造“中国版OpenAI”光年之外的原美团联合创始人王慧文，都来自这里。

在此轮大模型创业背后的投资方中，“清华系”的创投者们也颇为瞩目，包括图灵创投、卓源资本、清华控股、水木清华校友种子基金、无限基金SEE Fund等清华系创投机构也频频出手。

尽管如此，必须看到的是，由于大模型技术门槛较高，国内大模型人才主要分布在少数顶尖高校和科研机构，人才短缺问题日益严重，许多创业公司甚至面临着招聘困难。

“现在国内做基座类模型的人才90%都出自清华，国内真正会调模型、训练模型的甚至不超过200个人。”刘呈辉表示，由于行业本身的人才储备有限，加上大模型的突然“火爆”，人才短缺问题显得尤为突出，如果不在高校具备一定的人才资源，创业公司连招人都会变得很困难。

知名咨询公司麦肯锡一份关于人工智能的报告显示，预计2030年中国对AI专业人员的需求将增至2022年的6倍，人才缺口将达到400万人。

据脉脉高聘11月发布的《2023人工智能人才洞察》报告显示，2023年1—8月，人工智能新发岗位量已与2022年全年持平。2022年人工智能行业人才供需比为0.63，而2023年1—8月下探至0.39，相当于5个岗位要争夺2个人才。

图源：脉脉高聘

可以看到，AI原生应用“难产”的背后，面临着变现之难、数据之争和人才之困等多重挑战。Gartner发布的《2023年中国数据分析和人工智能技术成熟度曲线》指出，当前国内生成式AI技术仍处于“期望膨胀期”。只有当整个AI行业在“期望膨胀期”中保持谨慎，才能意识到将大模型的潜能转化为创新应用尚需克服不小的挑战。

作者：贾天荣，编辑：潘少颖，孙妍

来源公众号：IT时报（ID：vittimes），做报纸，也懂互联网。

本文由人人都是产品经理合作媒体 @IT时报授权发布，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。