国内已经涌现出了数量相对庞大的大模型,而与之相对的,基于大模型的应用产品数量却仍然较少。这也牵扯出一个问题,即AI原生应用的发展,究竟面临着哪些困局?一起来看看这篇文章的解读与分析。 图源:谷歌 无论是原生应用还是其底层基础大模型,数据至关重要。然而,高质量的语料匮乏已成为限制这一领域发展的关键瓶颈之一。 业内人士指出,尽管公有数据如互联网上的信息易于获取,但质量和针对性往往难以满足专业模型的需求。 相比之下,私有数据具有高度的专业性和针对性,对于训练精准的垂直类模型具有极高的价值。 以医疗数据为例,获取高质量的数据集至关重要,但由于医疗数据的获取和标注需要大量的人力、物力和时间,因此其成本相对较高,获取的渠道也十分有限。这类数据不仅难以在互联网上找到,而且由于涉及个人隐私,获取和使用也需遵守严格的法规和伦理标准。 浦因科技(上海)有限公司首席科学家秦兴虎告诉《IT时报》记者,在其所负责的医学大模型项目中,团队初期购买了英国生物银行的公共数据进行大模型训练,这些数据主要来自欧洲人群。为确保模型在国内的普适性,他们还需要使用中国人群的数据来更新和训练模型,这在无形中增加了项目成本。 对于国内企业而言,他们还面临着即使有钱也难以购买到合适数据的困境。中文语料库的内容相对匮乏,进一步加剧了数据获取的挑战。 因此,对于企业来说,如何合法、有效地获取和使用高质量数据,将其转化为模型训练、开发AI原生应用的宝贵资源,确实是一个重要的战略问题。 五、人才之困:5个岗位争夺2个人才AI原生应用作为大模型产业的核心产品,在研发和落地试错过程中面临诸多不确定性。人才成为决定成功与否的关键因素,也成了现阶段大模型竞争中的重要砝码。 关于国内人工智能人才的储备,回顾中国的大模型产业发展史,可以发现“清华系”的身影无处不在。 当国内对人工智能的研究还是一片空白的时期,清华大学最早开出的人工智能课程,也孕育出了目前国内人工智能领域的熠熠群星。无论是王小川还是智浦AI联合创始人唐杰,抑或欲打造“中国版OpenAI”光年之外的原美团联合创始人王慧文,都来自这里。 在此轮大模型创业背后的投资方中,“清华系”的创投者们也颇为瞩目,包括图灵创投、卓源资本、清华控股、水木清华校友种子基金、无限基金SEE Fund等清华系创投机构也频频出手。 尽管如此,必须看到的是,由于大模型技术门槛较高,国内大模型人才主要分布在少数顶尖高校和科研机构,人才短缺问题日益严重,许多创业公司甚至面临着招聘困难。 “现在国内做基座类模型的人才90%都出自清华,国内真正会调模型、训练模型的甚至不超过200个人。”刘呈辉表示,由于行业本身的人才储备有限,加上大模型的突然“火爆”,人才短缺问题显得尤为突出,如果不在高校具备一定的人才资源,创业公司连招人都会变得很困难。 知名咨询公司麦肯锡一份关于人工智能的报告显示,预计2030年中国对AI专业人员的需求将增至2022年的6倍,人才缺口将达到400万人。 据脉脉高聘11月发布的《2023人工智能人才洞察》报告显示,2023年1—8月,人工智能新发岗位量已与2022年全年持平。2022年人工智能行业人才供需比为0.63,而2023年1—8月下探至0.39,相当于5个岗位要争夺2个人才。 图源:脉脉高聘 可以看到,AI原生应用“难产”的背后,面临着变现之难、数据之争和人才之困等多重挑战。Gartner发布的《2023年中国数据分析和人工智能技术成熟度曲线》指出,当前国内生成式AI技术仍处于“期望膨胀期”。只有当整个AI行业在“期望膨胀期”中保持谨慎,才能意识到将大模型的潜能转化为创新应用尚需克服不小的挑战。 作者:贾天荣,编辑:潘少颖,孙妍 来源公众号:IT时报(ID:vittimes),做报纸,也懂互联网。 本文由人人都是产品经理合作媒体 @IT时报 授权发布,未经许可,禁止转载。 题图来自Unsplash,基于 CC0 协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。 |