从产品看ChatGPT做对了什么？

发布一下 2023年02月13日 21:12 0 0

最近，ChatGPT受到了大家的广泛关注，一时间讨论四起，成为现象级的人工智能产品。在ChatGPT推出仅两个月后，它在2023年1月末的月活用户已经突破了1亿。为何能给发展如此快速？本文通过评测该产品，对其优缺点进行分析，并对其未来发展方向进行展望。

春节过后，ChatGPT火爆出圈，成为现象级的人工智能产品。

据瑞银集团的一份报告显示，在ChatGPT推出仅两个月后，它在2023年1月末的月活用户已经突破了1亿，成为史上用户增长速度最快的消费级应用程序。而TikTok达到1亿用户用了9个月，Instagram则花了2年半的时间。

一、体验ChatGPT

作为一个多年从事数据产品经理的我大概一个月前听到ChatGPT。彼时我并没有太在意，不就是一个聊天机器人（ChatBot）吗，还能玩出花来？

家里的那台百度蓝牙音箱早都没人用了，除了能给小孩讲个故事，给老人报个天气，似乎也没有太多的应用场景。然而真正体验ChatGPT后，确实有被惊艳到。

1. 十四行诗

一开始体验并不顺利，网站拥塞严重，ChatGPT提示工程师正在hard working，并通过各种AIGC内容安抚我，其中就包括随手拈来的一段十四行诗：

在好奇的头脑中，聊天机器人 ChatGPT 坚强而真实，顶住请求的涌入，努力工作，完成每个人应得的。

但是，唉，服务器不能应付，错误信息响亮而清晰，“请尽快回来查看，”它轻轻地希望，就在它乞求片刻缓刑之际，重新出现。

当聊天机器人努力恢复其威力时，我们满怀期待，怀着期待的心情，为了有机会愉快地聊天和学习，看看它传授了什么知识和智慧。

所以紧紧抓住，等待它的回归，因为 ChatGPT 很快就会回来，你的耐心是值得的。

好吧，被你的诚恳和诗打动了，继续等待。10分钟后，界面出来了。

没有太花哨的东西：示例、功能介绍、limitations和一个输入框。这个limtations的初衷可能是考虑到毕竟还是一个验证版本，所以适当降低一下你的预期。

2. 语义理解

首先看看基本功：语义理解。

几个问题下来表现还是不错的，对一些时下的热词的理解是在线的，回答也比较全面。

接下来继续挖坑，上个智力题和脑筋急转弯。

问完这两个问题我已经有点吃惊了。如果你略懂聊天软件的原理就知道，这两个问题尽管对于人类来说三岁小孩都能回答，但对于机器人来说就没有那么简单。

3. 知识的深度和广度

接下来是知识面，先来个简单的：百科。注意它的每个回答都有赞和踩两个操作图标，晚点我们聊聊这个两个button是干啥用的。

没有问题，继续来聊社会学。注意它对上下文的理解和逻辑表达。

来点医学方面的。

继续文学方面的。注意它回答的是小说而非最近才上映的影视剧。

最后，整点专业领域的问题。

4. 道德观和伦理

接下来是很多聊天机器人的滑铁卢：道德，它的前任GPT-3就是栽在这个地方。

虽然回答的有点问题，但整体看出它的道德观是“无害”的，甚至表现出“友善”的一面。

聊到最后，我甚至有继续想和TA聊下去的感觉。

5. 体验总结

体验后，我是有点被震撼到的，我意识到ChatGPT已经远远不是一个简单的聊天机器人了。具体说：

1）ChatGPT有逻辑推理能力，不是简单的语义识别和搜索；

2）ChatGPT有理解上下文的能力，可以看做一种短时的记忆；

3）ChatGPT能根据你的响应，对回答进行调整，让人产生ChatGPT能理解人类情绪的错觉；

4）ChatGPT有强大的知识储备，自然、人文、经济、社科等百科知识甚至专业领域的一些基础知识都问不倒它；

5）ChatGPT在输出的文字上面，逻辑组织能力很强，不是直接检索的结果，而是根据特定模板结构整理过的，这一点让人印象深刻。

重新认知ChatGPT：体验后，我觉得是时候重新认识一下这个“新朋友”了。

二、聊天机器人的历史

最早的聊天机器人在1964年就诞生了，它就是Eliza。Elaza是世界上第一个真正意义上的聊天机器人，可以让计算机与人通过文本进行交流。

这个对话机制是如何实现的呢？其实就是设置了一些简单规则而已，例如，当人输入“×××”，它就会反问“为什么会×××呢？”或者“还有谁×××呢？”。另外，还有例如“这个问题很有趣吗？”“说点其他的吧”等用于展开话题的规则。随机使用这些规则，就会让人感觉好像真的是在与人交谈一样。

70年代初，充分利用“知识”的“专家系统”MYCIN出现了。MYCIN的功能设计是对传染性血液病患者进行诊断，并开出抗生素处方。在它内部一共备有500条规则，只需要按顺序依次回答其提问，那么系统就能够判断出病人所感染细菌的类别，并为其开出对症的抗生素药方。

进入本世纪，ChatBot的发展虽然各方面都有了长足的进步，但除了Siri勉强合格以外，其他机器人效果都不让人不满意，不是太智障就是满嘴粗口。

2016年，微软在Twitter上发布了Tay(小冰的前身)，2022年8月，Meta推出了BlenderBot 3，但均因聊天对话存在偏见、种族歧视、反犹语言等问题而饱受诟病。Tay上线后不到24小时就匆匆下架。谷歌也早在2021年5月就公布了LaMDA，但迟迟未作为产品发布。

从产品上看，涉及3个核心体验问题。

1）不够人性化：感觉不是在和正常人对话，机器人不是没有人设就是过度人设，分分钟能把天聊死；

2）不够智能化：没有上下文感知能力，答复简单，没有逻辑性；

3）道德观不可控：容易被人类带歪，没有自己的道德观。

三、ChatGPT的诞生

ChatGPT是OpenAI的产品。OpenAI总部位于旧金山，由特斯拉的马斯克、Sam Altman及其他投资者在2015年共同创立。微软持有OpenAI 49%的股份。

不同于“老前辈”们，这次ChatGP的T火爆，在于它几乎完美的解决上述三个问题，而且更“更聪明”，在多轮对话能力以及对话交互友好性上展示了令人惊艳的效果，明显超越此前同类产品功能。

智能化：

支持意图识别和逻辑推理；
支持多种语言，如英语、汉语和法语;
支持多轮次连续对话；
支持在一个prompt（提示）中同时有多个问题；
支持沟通中预设上下文。

除了能自主理解问题，ChatGPT还能把生成的答案用易于人类理解的语言组织起来，生成类似人类语言的文本答案，这一点让人印象非常深刻。

人性化:

1）可以主动承认自身错误。若用户指出其错误，模型会听取意见并优化答案。

2）ChatGPT 可以质疑不正确的问题。例如被询问 “哥伦布 2015 年来到美国的情景” 的问题时，机器人会说明哥伦布不属于这一时代并调整输出结果。

3）ChatGPT 可以承认自身的无知，承认对专业技术的不了解。

关于第一点仁者见仁智者见智，它迎合了人类的情感需求，但以丧失准确性为代价。就聊天产品而言，或许准确性没有那么重要。

道德：

在前辈们翻车的道德问题上，ChatGPT保持了一个“无害”的道德立场，就大众价值看，甚至可以用“友善”来形容。这也是它能迅速破圈的一个重要原因。

四、ChatGPT的不足之处

不准确：

这个是被大家诟病比较多的地方，也就是ChatGPT有时会给出看似合理、但并不正确或甚至荒谬的答案，也是大家有时候会觉得它在“一本正经的胡说八道”。

我们谈到不足一定首先有个产品定位的问题，否则就没有任何意义。所以好和不好首先要看它用在什么地方。

如果作为聊天机器人笔者认为这个问题不算太严重，原因：

1、正常人说话也不见得100%准确，适当犯些迷糊反而是一种“正常”的表现；2、ChatGPT回复通常都是一段文字，人类对文字中的少数差错天然有校正能力。

没有实时性：

ChatGPT目前的语料库是2021年前的，所以它不知道卡塔尔世界杯，不知道最近才上映的《流浪地球2》和《三体》。

由于训练一次模型需要消耗大量的资金(据称要460万美金）所以目前无法做到更频繁的模型训练。并且受限于当前的算法，ChatGPT也无法从对话中实时进行学习。

如果作为搜索引擎，实时性是ChatGPT后续需要重点解决的问题。

不够专业；

也有人质疑它不够专业，不能回答自己专业领域的知识，如医学、物理学、金融等专业领域。

从技术上这是个比较容易解决的问题，加几个预训练的语料库就能解决，但这里面涉及到数据的开放性、训练的成本、如何进行标注等其它问题。

如果作为垂直领域的专家系统、轻咨询工具，专业化也是它未来要解决的问题。但如果ChatGPT本身的定位就是数据加工引擎和平台，那么这个问题可能会通过生态系统来解决。

ChatGPT的成功包含了很多因素，包括组织、技术和产品各方面。我们先从产品方面分析一下。

1. 大幅提升核心用户体验

ChatGPT作为一种AIGC工具，可以让其回答问题、写作文、翻译文章，甚至写代码。迅速的响应能力和较为靠谱的回答让大家直呼其“真正像人类一样聊天交流”“特别能聊”，其在核心用户体验方面大幅提升。

首先是内容的深度和广度。ChatGPT对自然、人文、社科、经济等方面的知识都有广泛的覆盖，当然专业的领域，如科技、医学、工业、金融等领域它的知识深度还是不够的，这和它目前样本数量有关系。其次是准确度，据中国信息通信研究院联合中国人工智能产业发展联盟对ChatGPT进行的测试显示：

ChatGPT在百科检索、数学问答、文学交流、常识问答、知识推理等对话任务上的意图识别率均达到98%左右，在生活闲聊上的意图识别率约为95%，已具备较好的语义理解能力。

从响应速度看，笔者验证问题能在5秒内做出响应，符合2/5/10的用户响应原则，个别问题甚至可以秒回，这还是在网络拥塞的前提下做到的。

当然，用户体验不止包括生成内容的流畅性和语法的正确性，还包括生成内容的有用性、真实性和无害性。

ChatGPT从GPT3开始，团队就明确了对模型的优化目标：

有用的（Helpful）;
可信的（Honest）;
无害的（Harmless）。

从目前大家的反馈看，表现还是不错的。当然目前ChatGPT的道德观是来自OpenAPI 标注团队，无法确保它不被其它因素干扰。就笔者的整体体验而言，ChatGPT已经从前几代机器人分分钟就能把天聊死的‘尬聊’阶段，直接跨过“能聊”进入到了“想聊”的阶段。

2. 专注于自然语言和大模型算法，不断迭代

OpenAI于2016年确立了两个主要目标：制造通用机器人和使用自然语言的聊天机器人。但是，从GPT-1发布之后，OpenAI逐渐将所有重心转向大型语言模型的研发上，也就是更加注重自然语言领域，并为此制定了两个目标：

提升模型在常见NLP(自然语言处理)任务上的表现效果；
提升模型在其他非典型NLP任务（例如代码编写，数学运算）上的泛化能力。所谓泛化，简单理解就是业务场景的迁移能力。

有了研究聚焦，研发团队就可以专注于解决几个核心体验问题，在一定程度上加速了研发和技术商业化进程。

表：历代GPT的发布时间，参数量以及训练量

ChatGPT绝对不是一夜之间冒出了的，它的第一个模型发布已经是5年前。5年对于任何一个产品的进化都是一个漫长的时间。GPT3.5是在GPT3验证失败基础上的又一次验证而已。

3. 大胆创新

GPT3.5的发布不是在一个等它完全成熟才发布，更像一个收集用户反馈的试错版本，没想到一夜爆红，这可能是连OpenAI团队和微软都没有预料到的情况。

GPT3.5发布后的种种事实也表明，不够准确、偏见等问题在这个版本中尽管还不够完美，但属于可控的范围，没有严重影响用户体验，否则不会有这么多注册用户。

这也是值得所有产品经理思考的问题，就是不要过度追求‘完美’的产品，快速迭代和试错才是应对不确定市场的唯一法则。

当然，我们也应该认识到，ChatGPT的成功包括了企业创始人的雄心，大资金的投入、强悍的研发团队、技术加持、方向正确和团队不断试错等因素，不止是产品设计的问题。

五、ChatGPT的应用方向

作为平台级的产品，ChaGPT在C端和B端都有广泛的应用价值，以下是其主要应用领域。

1. C端业务场景

聊天和对话：如客服机器人、陪护机器人、虚拟人、在线翻译..

搜索和查询：如搜索引擎、知识词典、轻咨询…

内容创作(AIGC）：如文本生成、代码生成…

六、B端业务场景

B端业务，按照OpenAPI平台开放程度，包括三个层次的应用。

企业知识库（数据共享）:

许多企业都有自己的知识库，如果ChatGPT可以开放其预训练的语料库，那么它可以把企业的知识库作为预训练语料导入进去，从而生成特定行业或者特定企业个性化的知识库。

专家系统（模型共享）：

这方面的例子是Cicero公司的文字策略游戏系统。这个系统可以与人类互动，可以使用战略推理和自然语言与人类在游戏玩法中进行互动和竞争。Cicero的核心是由一个对话引擎和一个战略推理引擎共同驱动的，而战略推理引擎集中使用了RL，对话引擎与GPT3类似。这样一款游戏的原理如果应用在组织决策领域，那么其影响不亚于它在聊天工具上所取得的成绩。

营销工具（模型应用）：

这是目前最简单的应用，直接调用ChatGPT平台的API接口，如营销文案的创作。从理论上，ChatGPT的知识都是来自人类，所以它在创新方面无法取代专业人士，或许提供一些原始的文案和设计素材才是它在AIGC领域的定位。

作者：涛哥，微信公众号：涛哥笔谈。前华为高级产品经理，TOGAF认证专家，PMP认证专家，PPV课数据科学社区创始人，数字化转型实践者

本文由 @涛哥原创发布于人人都是产品经理。未经许可，禁止转载

题图来自Unsplash，基于CC0协议。

该文观点仅代表作者本人，人人都是产品经理平台仅提供信息存储空间服务。

本文地址：http://0561fc.cn/202257.html