从弱人工智能到通用人工智能:AI的演变与未来

 新闻中心     |      2024年04月23日

         在科技界的历史长河中,人工智能的发展历程就像是一场过山车,经历了激动人心的高潮和令人沮丧的低谷。1950年,图灵提出了“图灵测试”,仿佛在科技界投下了一枚深水炸弹。紧接着,1956年的达特茅斯会议上,麦卡锡正式提出了“人工智能”这个术语,引发了一场科技界的“大地震”。但是由于算力以及数据的限制,当年人工智能所提出的美好愿景并没有能够真正的兑现,也因此在上世纪的八九十年代进入了一段时间的寒冬。
      随着计算能力的飞跃和大数据的浪潮,AI 终于在 21 世纪迎来了自己的春天。尤其是在2012年,AlexNet 在图灵奖得主 Geoff Hinton 的实验室里横空出世,AlexNet 不仅在 ImageNet 竞赛中一骑绝尘,更让世界看到了人工智能改变世界的巨大潜力。此后,语音识别、自然语言处理、自动驾驶汽车、医疗诊断等诸多领域在 AlexNet 的影响下均取得了显著进展。

从弱人工智能到通用人工智能:AI的演变与未来

01


弱人工智能与强人工智能的对比


 弱人工智能就像是个专注于一项运动的运动员,而强人工智能则像是奥运十项全能冠军,无所不能。


    虽然 AI 已经在学术界和产业界被广泛研究和应用了,但其对于绝大部分普通人而言还是比较遥远的。因为过去是由弱人工智能主导的,即设计和训练用来执行特定任务的智能系统。这种类型的AI并不具有真正的理解或意识,它仅仅在其被训练的特定任务领域内表现出智能。

    举个例子,用 YOLOX 检测安全帽的模型,如果它有情感,可能会觉得自己的工作很“帽子”——它只能检测到安全帽的存在,却无法理解工人是否真的正确佩戴。后续假如我们假如想知道是否正确佩戴安全帽的话,可能还需要在数据上进行调整或后续的一些处理逻辑才能真正实现业务流程上的闭环。

    而强人工智能,尽管尚未实现,却已经在 Transformer 架构的推动下,展现出了迈向全能的潜力。

02


聊天机器人的进化


 早期的聊天机器人(弱人工智能)可能更适合去当门卫,因为它们只会说“是”或“不是”。然而,基于 Transformer 的 ChatGPT 的出现,就像是聊天机器人界的“文艺复兴”,ChatGPT 在刚被推出的时候就受到了广泛的关注,是史上用户增长速度最快的消费级应用程序


    以往 AI 常被我们戏称为“人工智障”,但 ChatGPT 除了一些敏感话题(比如涩涩或者政治)确实问什么能够回答什么,并且知识体系比你还更加丰富,这在以往的聊天机器人中是难以想象的。

    这之间主要的差异在于,以前早期的聊天机器人主要依靠模式匹配和固定的回答库,它们缺乏真正的理解能力和灵活性。这其实也是前面我们所提到的弱人工智能。

    比如苹果手机用户常见的 Siri 就是一个早期版本的聊天机器人。这一类的机器人会设定好一个回复的范围,比如说只在听到地点、闹钟或者特定的模式的情况下才会启动,当我们发出超过其数据库所支持的信息的时候,Siri 会选择拒绝回答,这也是为什么我们会经常觉得 Siri 有点笨笨的原因。

    ChatGPT这种基于 Transformer 架构的大语言模型与传统的聊天机器人截然不同。这种模型通过在大量文本数据上进行预训练,学习了语言的深层结构和上下文关系,因此能够生成连贯且相关的文本。这个模型不是简单地遵循一套预设的规则,而是通过分析互联网上海量的数据来掌握词语间的逻辑关系,结合人类的强化学习以及指令跟随的微调,逐渐学会了用人类的方式进行交流。

Transformer 架构图

    这就像婴儿从小听到大量的语言,随着基本语法和表达方式的学习,孩子的语言能力会逐步成熟,最终能够流利地进行对话。

    当然 ChatGPT 肯定不单纯是一个牙牙学语的婴儿,在我个人的角度看来,ChatGPT更像是一个学过网上所有知识的,能够使用大量工具且保守而道德的名校本科毕业生,但是只能进行短暂的理性思考,并对我们的问题只能产生有限的回复

    这样一个“名校本科毕业生”的训练过程远不是简单地制定几条规则那么简单,而涉及一个精心设计的模拟人脑的深层神经网络。模型通过大量文本输入,学习不同场景下的最优回应。然而,由于神经网络的多层复杂性,我们很难完全理解其内部工作机制,这也是为什么它被称为“黑盒模型”——我们只知道输入问题后,机器就会生成一个答案 A,但我们并不知道这个答案依靠的具体原理和触发的机制。这其实与大脑的运作类似,但 ChatGPT 的能力也确实已经对我们产生巨大的影响。


03


生成式AI的“超能力”

    除了文字写作交流之外,当前的生成式AI技术已经扩展到听、说、读等多个方面。例如,ChatGPT可以借助 DALL.E 3 的功能进行图像生成,并能解析图片中的内容和信息。此外,OpenAI最新在手机应用上也支持通过语音与AI进行交互。用户只需口述问题,OpenAI的 Whisper 模型便能将语音转换为文字,并通过接近真人的语音回应用户。

    还有就是最近非常火爆且由 OpenAI 推出的文生视频模型 SORA,它打破了视频生成行业过往技术的旧框架,不仅能够生成长达一分钟以上的高清视频,还支持连续视频生成和多角度展示,完全颠覆了我们对视频制作的传统认知(尽管虽然目前还没有完全放开让用户进行使用和测试)。

    那既然 ChatGPT 能够拥有听说读写的能力,已经基本具备了一个工具“人”的前提条件。那假如我们能够为其打造一幅机器的身躯时期能够真正的做到某些的事情那岂不是更好。当然就已经有公司这么去做了,比如说下面图片所展示的 Figure,就是利用机器人与 ChatGPT 的结合使其能够明白自己接下来要做的事情,并且找到合适的程序去执行这部分内容。

04


生成式AI所带来的冲击与改变

    从上面我所介绍的这一系列的技术进步和突破无不说明着当前的生成式AI工具正在慢慢的从某种特定领域的智能慢慢走向多领域综合智能方向上的发展,也就是我们所说的强人工智能。其能够开始通过文字、语音、图片等信息综合的回复我们。虽然在实际技术上,尤其是视频和图像生成方面还并不太成熟,但是真的已经在对我们现有的生活或者工作进行了冲击。

    想象一下,我们在网页和ChatGPT对话就好像在对面坐了一个知识面很宽泛且丰富的人一样,并且 7* 24 小时的为我们进行待命。只要我们能够合理的提出我们的需求,他都能够第一时间给予我解答。无论这个答案最终到底是对不对的,但是其还是会为我们提供一些有益的思路进行进一步的工作。

    这对于学生而言,由于他们的日常工作就是学习,有了 ChatGPT 那几乎就等于是请了一个有教无类的私教。我回想起自己研究生期间学习关于机器学习的基础知识的时候,很多问题不知道找谁能够去请教,就只能自己在B站或者YouTube上看视频一个个的来学习,而且由于代码能力弱,当代码出现Bug的时候也会很无力想放弃。但是现在有了 ChatGPT 后,几乎我们能够在数据处理以及模型训练方面实时的获取到帮助与回复,并且在遇到 Bug 时能够替我分析问题出在哪里以及要如何改进。

    这样定制化的学习体验是无与伦比的,毕竟一些教学视频只能够针对于一个特定的问题,当这个问题稍微变换了一下可能就会导致错误的发生。但是ChatGPT真的能够基于你个人特定的问题进行针对性的解答,并且实时的反馈,就好像那只点击按钮能够获得快感的老鼠一样,我们点击就能够得到反馈和回复,我们真的可能会开始依赖这个技术来成长和进步。

    另外,对于学生而言,其很重要的一个工作就是写论文。那在写论文的过程中我们其实经常会犯的一个问题就是写作过于口语化。这个其实也是我的亲身经历,我就在本科论文写作的阶段被导师说太多的口语化的内容,本质上来说就是不够简洁明了。一般来说我们假如自己不想学不想做的话,那是要找专门的润色公司或者收费软件来对论文进行处理的,但是假如我们现在有了ChatGPT之后,我们其实直接一部分部分丢进去让其帮忙润色就可以了,根本就不需要再花很多钱去找了,这其实真的会节省掉很多的时间。就像李宏毅老师在其生成式AI的课堂所提到的说,他会让所有他的研究生在发论文给他看之前先润色一遍,那这样就基本语言就会比较严谨一些而且不会有太多的语法错误。

    那对于工作中的人而言,同样有其重要的价值所在。比如说现在很多无意义且空洞的“盒子工程”,其实就是内容没人看但是你得写完放进盒子里,那其实借助大语言模型的力量来生成这部分无意义的文字会比起自己写效率高很多。那除了无意义的文字工作以外,让原本没有代码能力的人拥有通过自然语言来编程来让自己部分的工作变得自动化,这也是非常重要的内容之一。编程语言的学习的门槛其实也是有一些的,就比如比较简单的编程语言python学起来也是需要一段时间的,但是现在我们都可以不用学习编程语言,而是通过ChatGPT这类大语言模型作为其中的"翻译器"来进行转换形成一个可以实际应用的代码文件,这本身就是一个很有价值的事情。

    就拿解压文件来说,当我们需要手动一个个的解压然后点开的话,其实还是蛮复杂的,但是假如我们将文件地址发给ChatGPT然后让其对这个文件夹里所有的文件都进行解压,然后几行代码的运作就能够实现的话,这个还是非常方便且快捷的。除此之外,还有像是pdf转word以及图片文字提取这类的工作,python中也有大量的库去支持完成。那就不需要我们额外去寻找一些APP去执行这部分的事情了,直接通过代码又快捷又好用的来完成即可。

    那无论是打工人还是学生,利用ChatGPT来完成一些文档总结或是资料搜索也是非常方便的,这其实就相当于一个加速器,对于能够利用好AI工具的人们来说,他们的学习速度或者工作效率会提升非常多。那对于老板而言,这也是非常高兴的,因为这样的效率提升对他们而言就意味着可能能够以更低的成本赚到更多的钱,这也是为什么我们看到国外的大型科技公司其实裁员都蛮严重的,毕竟很多的工作内容经过了AI的加速后就并不需要那么多的人完成了。并且现在的经济环境整体也是在下行趋势,很多的企业也都在进行裁员及优化,这个时候资本家们也更有动力去利用AI技术去优化人员提升整体收益。并且写一个应用AI的故事也可能会对公司的估值产生积极的影响,何乐而不为呢?

<section data-style="outline: 0px; color: rgb(62, 62, 62);" class="js_darkmode__75" style="margin: 0px; padding: 0px; outline: 0px; max-width: 100%; box-sizing: border-box !important; overflow-wrap: break-word !important; color: rgb(