前几天有人总结了一份ChatGPT自查手册,里面总结了它的这么几个问题,包括,强词夺理、编造不存在文本、缺少2023年的一些新数据,等等。
同时,跟ChatGPT类似的几款AI应用,表现也并不完美。比如,前段时间谷歌的Bard,这是谷歌设计的,对标ChatGPT的智能AI。在测试时就犯了事实性错误,咱们前段时间在第43期节目里就说过。再比如,前段时间微软推出的,由ChatGPT支持的新版必应搜索引擎,也被人指出犯了事实性错误。必应在说到一个叫岸田惠理子的日本诗人时,人家的生卒年份本来是1929到2011,而必应给出的答案是1930到2004,直接让人家少活了8年。再比如说到某公司2022年三季度财报,人家实际运营毛利率是3.9%,但必应的回答是5.9%。注意,这些可都属于事实性错误。
当然,尽管有这些磕磕绊绊,但并不影响大家看好它。
但是,有人踩油门,就有人踩刹车。网上对ChatGPT的质疑声也不少。有人说它会让人变懒,还有人担心学生用它来写论文,等等。但是,在踩刹车的这拨人里,我觉得有一个人的见识非常厉害。这就是著名的华裔科幻作家,特德·姜。也就是,《你一生的故事》的作者,这也是电影《降临》的原著。
特德·姜认为,我们要想知道,ChatGPT的局限到底是什么?它又会带来什么样的问题?必须得先了解,ChatGPT的本质到底是什么?
特德·姜说,ChatGPT的本质,是一张互联网上所有文本的模糊图像。乍一听好像很抽象,我先给你讲一个故事。这个故事稍微有点难度,我建议你稍微集中点注意力。
2013年的时候,德国的一个建筑公司,在复印房屋平面图时遇到了一个奇怪的现象。原件的房间面积分别是14.13平方米、21.11平方米和17.42平方米。总之,是三个有零有整,各不相同的数。但是复印出来的图片,三个房间的面积,都被标记成了14.13平方米。
这太奇怪了,明明是复印,怎么会出错呢?结果一查,发现问题出在复印机上。当时他们用的复印机,是一种施乐牌的,经常用于建筑图纸的复印机。这跟咱们平时用的复印机不一样。因为建筑图纸往往特别大,直接复印很麻烦。因此这种施乐复印机,是先扫描图纸原件,然后储存到本地,再打印出来。你可以这么理解,它是先记住这个图像的样子,再自己画出来。
这就意味着,施乐复印机,往往要储存很多图片文件,而且你知道,建筑图纸,文件普遍不小。为了节省存储空间,施乐复印机有一个默认设置,就是给所有文件自动做压缩处理,把图片压缩成更小的文件。
那么,怎么才能压缩得尽量小呢?你可以这么理解,就像上课,怎么节省时间?很简单,重复的东西不学,什么东西都只学一遍。施乐复印机在压缩图片时,就遵循这个原则。假如这栋楼有1000个房间,全都一模一样,我在识别图像时,就把它们当成同一个信息,不用重复储存,只储存其中的一份就够了。
没错,问题就出在这,这回要复印的三个房间,在施乐复印机看来,是几乎差不多的。它觉得这些房间之间的差别可以忽略不计。于是就按照同一个房间来识别了。后来,这个bug已经被修复了。
好,故事讲完。刚才咱们说了很多,你要是没太懂也没关系。只需要记住一句话,因为储存空间有限,因此机器记东西,有时候不会完全一比一,它们会记一个大概其。也就是,保留关键特征,忽略它们认为不重要的细节。
特德·姜认为,ChatGPT现在做的事,可能就跟施乐复印机有点像。为了节省空间提高效率,它们在回答你的问题时,也是先在网上把资料整合个大概其,然后再用它自己的话告诉你。毕竟,网络上的素材太多了,它假如全部学习,再转述给你,不仅自己吃不消,你作为接收者,也会觉得信息冗余。
同时,为了达到一种很智能的感觉,ChatGPT回答问题的方式,往往不是直接引用,而是重新组织信息之后,用非常自然的语言表达出来。这就让人觉得,它非常智能。就像你衡量一个学生,好学生回答问题的方式肯定不是死记硬背,而是带上自己的理解。
换句话说,你可以把ChatGPT看成一个特别擅长口语表达,而且效率很高的职业转述师。这就意味着这么几件事。
首先,它是转述师,而不是专家。它给你的回答不是它原创的,而是学习网络上其他资料之后的转述。其次,为了提升你的接收体验,它很擅长口语表达。这很容易给你造成一种错觉,认为它好像真的学会了什么。最后,为了实现这个口语化的效果,同时,也为了提高效率,它对网上资料的学习,并不是完全一比一地学习,而是学一个大概其。
当然,眼下看,这好像也不是什么大问题。毕竟,很多人对ChatGPT的当前水平,也没有那么严格的要求。但是,长期看,特德·姜觉得这可能会带来两个问题。
第一,已经经过ChatGPT转述一次的答案,将来会不会被二次,甚至三次转述?因为每一次转述,都是一个大概其,都会忽略一部分细节,转述的次数多了,被忽视的细节就会越来越多。就好比电脑里的图片缩略图,假如再压缩一次,会越来越模糊,很多关键的事实性信息,可能会丢失。
第二,假如未来整个网络上,有大量ChatGPT转述的内容,整个互联网,可能会变得越来越模糊。你到时再想搜到一点精确的信息,可能会变难。
注意,特德·姜的这个观点,目前只是一个假设。怎么验证它是否成立?
特德·姜也给了一个方法,就是看下一代升级版的ChatGPT,也就是它的4.0版本,在训练时,会不会故意排除之前版本生成的内容。也就是,在训练下一代ChatGPT时,假如用的是网上的原始素材,而且故意排除了之前上一代ChatGPT自己生成的内容。就说明开发者自己已经意识到了这个问题,并且开始解决。
这也间接说明,特德·姜,预测对了。我们也会关注后续的新闻报道,来一起验证一下。
版权声明:内容来源于互联网和用户投稿 如有侵权请联系删除