首页 资讯 民生 科技 财经 汽车 房产 娱乐 文化 能源 公益 时尚 健康 图片

网络

旗下栏目: 三农 教育 法治 体育 消费 旅游 网络

谷歌这一“大招”,要逼死多少AI标注公司?

来源:AI新智能 作者:复兴网网络 发布时间:2023-09-18
摘要:手工小作坊,终究敌不过工厂流水线。 如果说,当下的生成式AI,是一个正在茁壮成长的孩子,那么源源不断的数据,就是其喂养其生长的食物。 而数据标注,就是制作这一“食物”的过程。 然而,这一过程真的很卷,很累人。 进行标注的“标注师”不仅需要反复地识别出图像中

我们在享受AI带来的巨大便利性的同时,很少有人想到背后付出的标注公司。一开始的标注都是劳动密集型产业,靠大量的人工进行堆料。Google最近推出了一种用大模型替代人类进行偏好标注的方法——RLAIF,倘若这一技术将来真的推广、普及,众多还在靠人工“拉框”的数据标注企业,从此是否就真的要被逼上绝路了?

研究结果表明,RLAIF可以在不依赖人类标注的情况下,产生与人类反馈强化学习(RLHF)相当的改进效果,两者的胜率都是50%。同时,RLAIF和RLHF都优于监督微调(SFT)的基线策略。

这些结果表明,RLAIF不需要依赖于人工标注,是RLHF的可行替代方案。

那么,倘若这一技术将来真的推广、普及,众多还在靠人工“拉框”的数据标注企业,从此是否就真的要被逼上绝路了?

一、数据标注现状

如果要简单地总结目前国内标注行业的现状,那就是:劳动量大,但效率却不太高,属于费力不讨好的状态。

标注企业被称为AI领域的数据工厂,通常集中在东南亚、非洲或是中国的河南、山西、山东等人力资源丰富的地区。

为了控制成本,标注公司的老板们会在县城里租一块场地,摆上电脑,有订单了就在附近招人兼职来做,没单子就解散休息。

简单来说,这个工种有点类似马路边上的临时装修工。

在工位上,系统会随机给“标注师”一组数据,一般包含几个问题和几个回答。

之后,“标注师”需要先标注出这个问题属于什么类型,随后给这些回答分别打分并排序。

此前,人们在谈论国产大模型与GPT-4等先进大模型的差距时,总结出了国内数据质量不高的原因。

但数据质量为何不高?一部分原因,就出在数据标注的“流水线”上。

目前,中文大模型的数据来源是两类,一类是开源的数据集;一类是通过爬虫爬来的中文互联网数据。

中文大模型表现不够好的主要原因之一就是互联网数据质量,比如,专业人士在查找资料的时候一般不会用百度。

智能系统的输出,则是指在一个简单的任务中,根据输入的数据,生成一个结果或回答,例如写一篇文章、画一幅画。

通常来说,智能系统的行为比输出更难以用“正确”或“错误”来判断,更需要用偏好或满意度来评价。

而这种以“偏好”或“满意度”为标准的评价体系,由于不需要修改或标注具体的内容,从而减少了人类主观性、知识水平等因素对数据标注质量以及准确性的影响。

而相较之下,OpenAI的人工反馈则来自多个渠道和团队。

OpenAI不仅使用开源数据集和互联网爬虫来获取数据,还与多家数据公司和机构合作,例如Scale AI、Appen、Lionbridge AI等,来获取更多样化和高质量的数据。

与国内的同行相比,这些数据公司和机构标注的手段要“自动”和“智能”得多。

例如,Scale AI使用了一种称为 Snorkel的技术,它是一种基于弱监督学习的数据标注方法,可以从多个不精确的数据源中生成高质量的标签。

同时,Snorkel还可以利用规则、模型、知识库等多种信号来为数据添加标签,而不需要人工直接标注每个数据点。这样可以大大减少人工标注的成本和时间。

在数据标注的成本、周期缩短的情况下,这些具备了竞争优势的数据公司,再通过选择高价值、高难度、高门槛的细分领域,如自动驾驶、大语言模型、合成数据等,就可不断提升自己的核心竞争力和差异化优势。

如此一来,“先行者会吃亏”的搭便车困境,也被强大的技术和行业壁垒给消弭了。

三、标准化VS小作坊

由此可见,AI自动标注技术,真正淘汰的只是那些还在使用纯人工的标注公司。

尽管数据标注听上去是一个“劳动密集型”产业,但是一旦深入细节,便会发现,追求高质量的数据并不是一件容易的事。

以海外数据标注的独角兽Scale AI为代表,Scale AI不仅仅在使用非洲等地的廉价人力资源,同样还招聘了数十名博士,来应对各行业的专业数据。

可以说,这样标准化、统一化的工具与流程,成为了区分标注企业中“流水线工厂”“手工小作坊”的关键因素。

在这方面,目前国内大部分的标注企业,都仍在使用“人工审核”的方式来审核数据标注的质量,只有百度等少数巨头引入了较为先进的管理和评估工具,如EasyData智能数据服务平台。

如果在关键的数据审核方面,没有专门的工具来监控和分析标注结果和指标,那对数据质量的把关,就仍旧只能沦为靠“老师傅”眼力见的作坊式水准。

因此,越来越多的国内企业,如百度、龙猫数据等,都开始利用机器学习和人工智能技术,提高数据标注的效率和质量,实现人机协作的模式。

由此可见,AI标注的出现,并不是国内标注企业的末日,而只是一种低效、廉价、缺乏技术含量的劳动密集型标注方式的末日。

作者:举大名耳

来源公众号:AI新智能(ID:alpAIworks),一个致力于探索人工智能对商业世界和社会影响的平台。

本文由人人都是产品经理合作媒体 @AI新智能 授权发布,未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议

该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。

责任编辑:复兴网网络

上一篇:蜂花商战:想致富,先发疯

下一篇:没有了

关于我们 | 联系我们 | 广告服务 | 法律声明 | 招聘信息 | 网站地图

复兴网版权所有,未经书面授权禁止使用

复兴时报社主办 版权所有:复兴时报社 © 2014-2023 CHINAFXNEWS.com All Rights Reserved.

举报邮箱: chinafxnews@163.com

电脑版 | 移动版