file

即便在前一天 OpenAI 刚刚发布的 GPT-4 已经将用户对ChatGPT的期望值拉得更高, 百度的「文心一言」还是如期而至。

3 月 16 日下午,百度首款多模态大模型「文心一言」正式亮相发布会。

CDT 档案卡
标题:百度“顶风”发布文心一言,实测与ChatGPT尚存差距
作者:张勇毅
来源:微信公众号“电厂”
发表日期:2023.3.16
主题归类:ChatGPT
版权说明:该作品版权归原作者所有。中国数字时代仅对原作进行存档,以对抗中国的网络审查。详细版权说明

按照会上李彦宏对于「为什么要在这个时间点发布文心一言」的解释,百度其实过去数年一直都会爆出每年正常迭代一个新版本出来的频率,最终才有了现在文心一言的诞生。

在会上,李彦宏一共展示了五个文心一言的应用场景:首先是帮大刘续写《三体》:文心一言根据对话问题将知名科幻小说《三体》的核心内容进行了总结,并提出了五个续写《三体》的建议角度,体现出对话问答、总结分析、内容创作生成的综合能力。

此外,文心一言准确回答了《三体》作者、电视剧角色扮演者等事实性问题。面对「于和伟和张鲁一有哪些共同点」、「于和伟和张鲁一谁更高」这类问题,文心一言也基于推理能力得出了正确答案。

image

第二个展示的是商业文案创作场景:这同样也是过去数月 ChatGPT 被很多人认为即将要取代的创作领域:在这一创作场景中,文心一言展示了完成给公司起名、根据事件生成一篇公司的新闻稿的能力,甚至能顺便生成一个对应的 Slogan。

image

在第三个案例中,文心一言还展现出的一定程度上的思维能力:这也正是 OpenAI 强调的 GPT-4 相比前代的最强大之处。而文心一言则能够学会数学推演及逻辑推理等相对复杂任务。面对「鸡兔同笼」这类锻炼人类逻辑思维的经典题,文心一言能理解题意,并有正确的解题思路,进而像学生做题一样,按正确的步骤,一步步算出正确答案。

image

除了常规的文本对话能力,百度还特别展示了文心一言在多种样式内容上的生成能力:例如自动根主题创作海报、用四川话读出来文本内容,甚至是直接生成视频。

image

在现场展示中,文心一言还正确解释了成语「洛阳纸贵」的含义,以及「洛阳纸贵」对应的经济学理论,还用「洛阳纸贵」四个字创作了一首藏头诗。

image

从最后两个场景能看出,百度不仅试图让文心一言展示出了不同于 ChatGPT 的本土化能力,还展现出了 ChatGPT 迄今都未出现的视频内容生成能力。

不过截至目前,这些在发布会中出现的演示片段都并非更有说服力的实机演示,而是全程采用的是录制好的视频来演示,身经百战的李彦宏在台上,也罕见地表现出了「怯场」,在发布会中多次卡壳。

image

不过《电厂》也拿到了文心一言的测试账号,这里就加入一些实际测试内容,帮大家快速了解一下文心一言的实际能力几何。 比如你可以问他如何炒好一盘鱼香肉丝:

image

以及生成藏头诗功能,文心一言也能快速生成一段七言绝句:只是这个功能似乎受限于藏头四个字,在实际的测试中文心一言也只能生成最多四句古诗,但这相比目前的 ChatGPT 以及 New Bing 已经是相当本土化的功能了。

image

以及要求它列出特斯拉过去六个月的销量,以及自动生成一份逐月销量表格。只是它并没有明确给出数据来源,以及并没有准确识别出记者提问中留下的「坑」——「中国销量」与「全球销量」这一至关重要的区别。

image

此外,从目前的多次测试来看,文心一言对于上下文的关联对话程度要稍弱于 ChatGPT,以及目前的内测版本中,发布会上提到的生成视频功能其实还暂时未能上线,要求它生成一段视频,只能返回一大段类似视频脚本的文本。

image

最后,虽然文心一言今天展示了根据内容自动生成文本/图片,甚至是视频的能力,但作为后来者的文心一言,面对 GPT-4 这样的强力对手,也需要更多用户的测试来推动迭代更新。因此百度今天也开启了文心一言的测试,但需要邀请码才能参与测试。 

同时,百度还表示,未来的服务提供方式将变为 MaaS,即将大模型作为一种服务提供给其他应用服务,这也正是目前 GPT-4 展现出的前景,而目前在国内也确实缺乏对应的大模型提供商,至少在这个维度上百度已经走在了第一线。

「我们相信,人工智能会彻底改变我们今天的每一个行业。AI的长期价值,对各行各业的颠覆性改变,才刚刚开始。未来,将会有更多的杀手级应用、现象级产品出现,将会有更多的里程碑事件发生。」李彦宏在发布会上如此说道。

另附:

3月15日,网上还传出一张据称是“百度上线文心一言后的内部通知”截图。通知中称,“明天是百度文心的发布日,鉴于GP4-4(GPT-4)已经表现出强大的多模态能力,文心必须背水一战,发布日当日,所有百度员工,后台值班,一旦文心无法正确答复,需要各位,及时顶上。” 但这一图片的真实性存疑,也有网友认为是“恶搞P图”。

filev
filev