AI这个概念火了之后,吸引了大批的资本和企业涌入,人们对AI的预期也逐渐拔高。但事实上,业务现状和人们的预期之间还存在着匹配错位。这篇文章里,作者尝试从更理性的角度来看待AI的进展,并设想了一种测试智能程度的方式,一起来看。 这是一个纯粹的智能测试,本质是追求在封闭系统里面的逻辑自洽性。 现在我们把Agent类似的概念加入这个测试: 这就是图灵测试2.0。和1.0相比核心差异是什么呢? 去幻觉,有边界。 1.0是一个凌空的系统,具有合理性的幻觉其实有助于通过测试,但2.0不行,测试者同时从真实场景和被测试者接受反馈;其次就是测试边界的限定要求更高的智能深度。这很像赵括学兵法能说的天花乱坠,但不一定能打仗;会打仗不一定兵法上什么都懂,但水站、陆战、马站好歹得会一个。 能否打破内容生成的边界变成各种场合都用的新式通用计算平台,关键取决于智能是否能跟上。而智能是否能跟上取决于是否在一个个场景下能通过图灵测试2.0。 Linux和Windows等输出智能的方式虽然老土,并且但他们提供了足够的确定性,他们加上程序员达成了过去所谓的软件吞噬世界。这是一种Good Enough的计算模式,但现在的AI还不是。 现在大模型等确实提供了更好的计算形式,但关键是它的不智能(过不了图灵测试2.0)导致不能替换过去系统加程序员的组合。智能的边界限制了应用的边界。 注4:图灵测试2.0的展开参见《AI的进展不是太快,而是太慢》 四、通过图灵测试2.0后会怎么样呢?那时候不单客服、外呼会基于AI进行构建,每个现有应用(Office等已经开始、游戏大概率会爆真正的多维叙事高度随机,主打智能的新式游戏)、广告屏、智能音箱、电视甚至手机都会重整。因为基本计算范式变了,它的交互载体必然发生变化,这个变化的幅度可能大于PC互联网到移动互联网的更迭幅度。从这个角度可以进机器人一定是下个通用计算平台型产品。 极端讲除了极其机械的那类产品比如霓虹灯,计算器,别的都会变。 这种视角可以描述成为场景的智能密度,显然的拧螺丝的智能密度度低于算数学题。 智能密度越高的场景其计算方式和对应的产品越会发生变化,因为价值更大。然后再匹配上从数字到物理的视角,有无幻觉的视角。以图灵测试2.0为根基,加上这三个视角共同构成也约束了未来智能应用的发展路线。 这种路线的实现方式的具体体现就是我们经常说的Agent。 如果我们把智能的密度(原点是0),物理的程度(原点是0,代表纯粹数字应用),幻觉有害度(原点是0,代表幻觉无害)画一个坐标系,并把这个图放在正中心位置排列,那在下面这个示意图里面,最头部的是什么呢? 答案很可能是:游戏,多维叙事类的游戏。 注5:大模型的落地应用的形式参见《AI Agent:大模型与场景间的价值之桥,但不适合当纯技术看》 五、Agent不是大模型的延伸而是新物种通过图灵测试2.0才能有真的agent。但需要注意的是agent不是大模型的延伸,而是一种新物种。做汽车发动机和做汽车怎么都不是一回事,虽然汽车没发动机根本跑不了。 只有Agent才能启动AI的浪潮,而能启动AI浪潮的Agent还不是别的简单融合AI特征的应用,而是智能原生型Agent。这种情况下,Agent不单是输送智能到具体场景的管道。 智能原生应用的构图: 在这种思维模式,AI原生注定会被放到一个结构的中心位置: https://www.ericsson.com/en/reports-and-papers/white-papers/ai-native 在这里大模型等扮演的是引擎的模式,通过不了图灵测试2.0,那么智能原生应用会很像用骡子拉的汽车。 通过了这个测试,再补上上面提到的感知、目标、反馈、使能环节,Agent才能真正成为新式通用计算的实现载体。只有通过这种测试才能一步步的把引擎换成蒸汽机、内燃机、涡轮增压等。Agent范围的扩大注定也就是智能一步步提高的过程。 注6:智能原生相关展开参见《从手机App到AI原生应用》 六、现在能不能过图灵测试2.0呢?答案是过不了。所以才说现在的AI还不行。 我们可以调低标准,让标准更垂直,只要范围收缩的足够窄,那所有测试都能过,但那没意义。我们看下前面这个具体例子,就能理解上面整个逻辑链条:过不了图灵测试2.0,成为不了智能原生应用的基座,只是憋在了AIGC这样一个小池子里,所以现在的AI还不行。 假如你想开播了,但又不想自己上,而是希望做一个自己的数字代理或者说分身,那这个数字代理人真想取得效果都要搞定什么呢?(取得效果是指有人愿意看,有粉丝等) 首先是最基础的产研部分:先打造自己的外壳,也就是形象要像那么回事,然后给它匹配上看、听、说、想的能力(计算机的输入输出、存储和CPU…)。这里面看、听、说基本上是用过去十年反复打磨的技术,比如图像识别、语言识别、语音合成等,想的部分则要基于大模型了,它负责综合各种输入产生自己的输出。当程序员把这些都连接起来,基本上就有了一个数字分身,它能基于观众的各种输入做点反馈。 但产品做到这里基本上完成了手眼的部分,脑的部分属于有了,但还不好使。这时候即使导入了最好的大模型,它也还是一个很傻的Bot,别说取得效果,基本上就没人会看完任何一个直播段落。这时候在单纯的单点技术上使劲内卷是没前途的(包括大模型),那样搞不定粉丝也搞不定留存,回报大致为0。 改善起来第一步肯定是希望能加入人格特征,让它的性格特征和你更像,比如是不是对人友善、表达是不是犀利,也要社会一点:会说话能联络感情等。 这时候要尽可能记住过去和某个人说过什么。这部分不纯粹是技术,但技术相关性还是很高,通常需要找找过去干过的老司机,纯粹的干prompt估计搞不定(注1说的那课其实就是这个价值)。 这步是个槛,搞定了算通过图灵测试1.0,别人分不出到底是不是你了,但现在其实没法彻底搞定这事,无边界闲聊还行,限定到人格特征上表现就没想的那么好。搞不定的情况下,会出现什么结果呢?会看着有点智能有点像你的一个人,在那里叨叨,但毫无特色和趣味性。能不能吸引到粉丝呢?这要看你到底播什么了。我估计播动物世界没准行,娱乐估计够呛。这是下面的话题,关键因素进一步从技术向产品偏移。 通过图灵测试1.0的智能产品已经有用了,在这之前是纯粹工具,在这之后就有点Agent的意思,但价值还没想的那么大。 通过图灵测试1.0这样的一个数字分身有什么用呢? 它优点是信息吞吐量大,不知疲惫,人模人样;坏处是智能还是不够,做不出很好的性格、才艺、出众的观点、有趣的随机应变等。那适合做什么事呢?它适合做内容本身有趣,主播是配角的事。 那些事是这类的呢?比如播动物世界、讲故事、播新闻,偶尔穿插点互动。这本质是一个更好用了的智能音箱。 这是在干什么呢?是在缩减场景对智能的需求。智能供给不足就只能降级。 那理想状况是什么样呢? 理想状况是这个数字分身还要能接入实时的热点,动态的生成要输出的内容,比如图片、视频,然后做主播。这种热点要匹配大家的关注点,要新颖,要匹配平台的规则,不单是正向的规则,还要把握好反向的尺度,否则会被抬走或者封杀。 这部分会衍生非常多的细节工作,比如那个主题是现在主推的,这得跟着平台走才行,否则你权重不好它不推你,也白搭。 对平台这是个智能对智能的过程,对受众这是个综合分析的过程,对创作这是个创意创新的过程。这事能干了,算是通过图灵测试2.0,一旦过了至少可以和人类二分天下。过不了,比如不管内容的时效或者不管平台热点的捕捉,就都还是干半截活!是智能供给不足。这部分如果成功,那基本上可以有粉丝了。到这里也才算是脑子长成,并且培养出了自己的风格。 假设这能做到了,就完了么? 也还没有。这些都搞完了,主要解决了硅基智能和硅基智能的关系,相当于能够比较匹配平台的规则和现实的热点。 郭德纲捧人的主要方法就是反复提这个人。你做主播如果有人拉扯显然效果会更好。那和谁合作,怎么合作还是需要人去做。把这个场景全覆盖了,才算真正的你的代理。 上面说的可以总结成一张和自动驾驶类比的图: 从这个视角看现在能完成的百分之十不到。更何况这只是一个相对简单的C端场景,B端场景比这个要复杂的多。 注7:这部分更详细的描述参见《举个例子:智能原生应用的脑、手、意》 小结AI这行当一直是这么个状态,一旦有一点突破,大家就欢欣鼓舞,然后预期就上去了,马上能匹配这种预期的是什么呢?是资本和营销热度。所以很快就会变的满地都是以及看到非常多的高估值。 但业务和这种预期的匹配则要难的多,但这里才是行业的第一性。不同行业的这几者间的速度差是不一样的,互联网的匹配速度其实最快,AI的匹配速度很可能是更像传统软件,次于互联网,但快于消费产品。 专栏作家 琢磨事,微信公众号:琢磨事,人人都是产品经理专栏作家。声智科技副总裁。著有《终极复制:人工智能将如何推动社会巨变》、《完美软件开发:方法与逻辑》、《互联网+时代的7个引爆点》等书。 本文原创发布于人人都是产品经理。未经许可,禁止转载。 题图来自 Unsplash,基于 CC0 协议 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。 |