ChatGPT的致命性缺陷：让世界越来越模糊

发布一下 2023年02月16日 19:12 0 0

ChatGPT的致命性缺陷

前几天有人总结了一份ChatGPT自查手册，里面总结了它的这么几个问题，包括，强词夺理、编造不存在文本、缺少2023年的一些新数据，等等。

同时，跟ChatGPT类似的几款AI应用，表现也并不完美。比如，前段时间谷歌的Bard，这是谷歌设计的，对标ChatGPT的智能AI。在测试时就犯了事实性错误，咱们前段时间在第43期节目里就说过。再比如，前段时间微软推出的，由ChatGPT支持的新版必应搜索引擎，也被人指出犯了事实性错误。必应在说到一个叫岸田惠理子的日本诗人时，人家的生卒年份本来是1929到2011，而必应给出的答案是1930到2004，直接让人家少活了8年。再比如说到某公司2022年三季度财报，人家实际运营毛利率是3.9%，但必应的回答是5.9%。注意，这些可都属于事实性错误。

当然，尽管有这些磕磕绊绊，但并不影响大家看好它。

但是，有人踩油门，就有人踩刹车。网上对ChatGPT的质疑声也不少。有人说它会让人变懒，还有人担心学生用它来写论文，等等。但是，在踩刹车的这拨人里，我觉得有一个人的见识非常厉害。这就是著名的华裔科幻作家，特德·姜。也就是，《你一生的故事》的作者，这也是电影《降临》的原著。

特德·姜认为，我们要想知道，ChatGPT的局限到底是什么？它又会带来什么样的问题？必须得先了解，ChatGPT的本质到底是什么？

特德·姜说，ChatGPT的本质，是一张互联网上所有文本的模糊图像。乍一听好像很抽象，我先给你讲一个故事。这个故事稍微有点难度，我建议你稍微集中点注意力。

2013年的时候，德国的一个建筑公司，在复印房屋平面图时遇到了一个奇怪的现象。原件的房间面积分别是14.13平方米、21.11平方米和17.42平方米。总之，是三个有零有整，各不相同的数。但是复印出来的图片，三个房间的面积，都被标记成了14.13平方米。

这太奇怪了，明明是复印，怎么会出错呢？结果一查，发现问题出在复印机上。当时他们用的复印机，是一种施乐牌的，经常用于建筑图纸的复印机。这跟咱们平时用的复印机不一样。因为建筑图纸往往特别大，直接复印很麻烦。因此这种施乐复印机，是先扫描图纸原件，然后储存到本地，再打印出来。你可以这么理解，它是先记住这个图像的样子，再自己画出来。

这就意味着，施乐复印机，往往要储存很多图片文件，而且你知道，建筑图纸，文件普遍不小。为了节省存储空间，施乐复印机有一个默认设置，就是给所有文件自动做压缩处理，把图片压缩成更小的文件。

那么，怎么才能压缩得尽量小呢？你可以这么理解，就像上课，怎么节省时间？很简单，重复的东西不学，什么东西都只学一遍。施乐复印机在压缩图片时，就遵循这个原则。假如这栋楼有1000个房间，全都一模一样，我在识别图像时，就把它们当成同一个信息，不用重复储存，只储存其中的一份就够了。

没错，问题就出在这，这回要复印的三个房间，在施乐复印机看来，是几乎差不多的。它觉得这些房间之间的差别可以忽略不计。于是就按照同一个房间来识别了。后来，这个bug已经被修复了。

好，故事讲完。刚才咱们说了很多，你要是没太懂也没关系。只需要记住一句话，因为储存空间有限，因此机器记东西，有时候不会完全一比一，它们会记一个大概其。也就是，保留关键特征，忽略它们认为不重要的细节。

特德·姜认为，ChatGPT现在做的事，可能就跟施乐复印机有点像。为了节省空间提高效率，它们在回答你的问题时，也是先在网上把资料整合个大概其，然后再用它自己的话告诉你。毕竟，网络上的素材太多了，它假如全部学习，再转述给你，不仅自己吃不消，你作为接收者，也会觉得信息冗余。

同时，为了达到一种很智能的感觉，ChatGPT回答问题的方式，往往不是直接引用，而是重新组织信息之后，用非常自然的语言表达出来。这就让人觉得，它非常智能。就像你衡量一个学生，好学生回答问题的方式肯定不是死记硬背，而是带上自己的理解。

换句话说，你可以把ChatGPT看成一个特别擅长口语表达，而且效率很高的职业转述师。这就意味着这么几件事。

首先，它是转述师，而不是专家。它给你的回答不是它原创的，而是学习网络上其他资料之后的转述。其次，为了提升你的接收体验，它很擅长口语表达。这很容易给你造成一种错觉，认为它好像真的学会了什么。最后，为了实现这个口语化的效果，同时，也为了提高效率，它对网上资料的学习，并不是完全一比一地学习，而是学一个大概其。

当然，眼下看，这好像也不是什么大问题。毕竟，很多人对ChatGPT的当前水平，也没有那么严格的要求。但是，长期看，特德·姜觉得这可能会带来两个问题。

第一，已经经过ChatGPT转述一次的答案，将来会不会被二次，甚至三次转述？因为每一次转述，都是一个大概其，都会忽略一部分细节，转述的次数多了，被忽视的细节就会越来越多。就好比电脑里的图片缩略图，假如再压缩一次，会越来越模糊，很多关键的事实性信息，可能会丢失。

第二，假如未来整个网络上，有大量ChatGPT转述的内容，整个互联网，可能会变得越来越模糊。你到时再想搜到一点精确的信息，可能会变难。

注意，特德·姜的这个观点，目前只是一个假设。怎么验证它是否成立？

特德·姜也给了一个方法，就是看下一代升级版的ChatGPT，也就是它的4.0版本，在训练时，会不会故意排除之前版本生成的内容。也就是，在训练下一代ChatGPT时，假如用的是网上的原始素材，而且故意排除了之前上一代ChatGPT自己生成的内容。就说明开发者自己已经意识到了这个问题，并且开始解决。

这也间接说明，特德·姜，预测对了。我们也会关注后续的新闻报道，来一起验证一下。

本文地址：http://0561fc.cn/202493.html