讯飞星火V4.0发布会刘庆峰演讲实录（1）

6月27日，北京，科大讯飞举行讯飞星火升级发布会，星火大模型V4.0亮相。

科大讯飞董事长刘庆峰全程演讲，科大讯飞研究院院长刘聪真机实测，他们在回答两个关键问题：

今天，中国的大模型底座能力到底怎么样？

今天，风起云涌的大模型究竟如何应用落地？

升级发布的讯飞星火不仅在底座能力上全面对标GPT-4 Turbo，还落地各种应用场景服务每个人和每个企业。

懂你学习的AI助手，让每个孩子在一对一个性化教学中培养出主动思考的终身学习能力；

懂你健康的AI助手，让一家老小都能24小时被专业医疗守护；

懂你汽车的AI助手，让汽车“能说会聊”，把旅行枯燥的路途变成一路的欢乐；

懂你工作的AI助手，让每一位员工快速提炼会议共识和决议，高效输出尽早把工作完成；

懂你企业的AI助手，让小团队也有大能力，深入企业经营与服务场景，结合企业管理的真实情况，寻找业务痛点，帮助每个企业健康发展，保持竞争力。

这样的讯飞星火是每个人身边“懂你的AI助手”，是通用人工智能时代AI对每个人的表白。

“每一次人类文明进步的背后都有一个了不起的助手，每一代助手都有它的使命。”刘庆峰说，讯飞星火的使命是解放生产力、释放想象力，“希望通过我们的能力，成就每一个了不起的企业，帮助每一个人都成为了不起的自己。”

以下为刘庆峰演讲实录：尊敬的各位领导、各位合作伙伴、各位院士专家、各位媒体朋友、线上的朋友们，大家好！热烈欢迎大家莅临讯飞星火V4.0的发布会现场。

这一年多来，以大模型为主要带动的通用人工智能浪潮在全球风起云涌、高潮迭起。随着大模型技术研发和产业应用的不断深入，大家越来越关注两个非常关键的核心问题。

第一，今天中国大模型的底座能力到底怎么样？在中美科技日益激烈的人工智能领域博弈下，去年10月17日，英伟达因为美国商务部的要求，对中国所有能训练大模型的智能算力全面断供。就在6月25日，OpenAI也正式通知将从7月9日开始终止所有来自中国的API申请。在这个背景下，热热闹闹、风起云涌的通用人工智能浪潮，到底有没有自主可控的国产底座能力做支撑，这决定了我们在这条路上到底能走多远，决定了通用人工智能这一波浪潮；相当于PC和互联网的诞生，在人类历史上有深刻的意义，而我们能不能享受这波红利，能不能成为美国之后全球智慧涌现的第二极？

第二，大模型将会改变信息分发获取的方式，改变人机交互方式，改变内容生产方式，也会改变我们的整个产业形态和竞争格局，改变科研范式，这是大家都能看到的大趋势和未来。Gartner预测，到2026年现在80%的企业都要用到通用人工智能，而今天这个数字是5%左右。

大模型在今天风起云涌、如此大的投入下，究竟怎么落地？美好的未来摆在这里，当前第一步该怎么以科学合理投入，才能让大模型真正的刚需价值能够落地，能够看得见、摸得着，能够用统计数据来证明应用成效。我想关于底座技术、关于应用落地，是今天所有的关心大模型、关心通用人工智能的研究机构、企业、高校、科研院所以及政府部门共同关心的话题。今天讯飞星火V4.0的发布，我特别想跟大家分享我们这两方面的看法，给出科大讯飞对这两个问题的答案。

实际上，从去年5月6日讯飞星火V1.0发布之后，大模型的各项能力都在快速提升，我们几乎每个月都会有一次非常重要的升级。以大家特别关注的文本写作为例，今天星火大模型写出来的东西已经不仅仅能让我们觉得不错，很多时候还会给我们很大的触动，给我们带来惊喜，甚至是感动。

今年6月7日上午，高考语文作文题新鲜出炉，当天中午就有很多人，包括机构、老师、投资人等，从各个角度来测星火在高考作文中的写作能力如何。非常自豪的是，大家都给了讯飞星火很高的评价。在“重庆日报新重庆客户端”上发布这篇文章，是6月7日12:10让大模型写的，在人工智能圈一个大佬云集的微信群里，被大家专门拿出来作为一个经典案例点赞。

大家可以看到，星火写的内容非常专业，很好地运用了排比、引用、论证等写作手法。当时有很多人给了评分，在满分是60分的情况下，最低的给了52分。大家读一下就会看到，在这中间有思辨的想法，引经据典也都写得非常好。这是没有任何人工干预生成的结果，是大模型自己写出来的，它的能力确实越来越强了。

当然，大家还会关心说今天大模型写作、写诗、作画能力在不断提升，而要真正地解决人类刚需的一个非常重要的标志就是科研，究竟大模型在赋能科研方面到底有没有成效？

以我们和中国科学技术大学生命学院刘海燕教授团队的合作为例，我们用大模型中基于条件扩散模型的蛋白质主链设计算法SCUBA-D，能够从头生成自然界不存在的蛋白质。实践证明这种生成的蛋白质在我们医学特别需要的领域中，它的结合亲和力与天然的蛋白质相当，甚至更强。最重要的是，我们把设计成功率从原来的0.1%提升到64%，提升了640倍，原来需要6个月做的设计，现在1天就做完了。这个已经不是在简单的科研验证阶段了，目前已经成功地设计了48个蛋白质，还在批量生产。这篇文章也在今年5月正式被《Nature》子刊接收，证明了我们在业界的领先地位。

我想说的是，大模型不仅可以写诗、作画，在改变工业、改变科研范式等方面已经实实在在发挥作用，包括我们和中国科学技术大学做的合成类的科学创新，比如说化学；还有与合肥综合性国家科学中心能源研究院合作，在推进大模型赋能核聚变整个过程中更快地预测、更好地应对各种各样的异常情况，这些都在快速推进之中，这是我们在科研上面的各种进展。

每个人都能够下载的讯飞星火APP，也正在给每个人带来福利。

安徽日报记者董一帆，她在使用讯飞智能办公本和讯飞智能录音笔之后，再结合星火大模型能力，就能够自动录音、自动转成文字、自动生成待办事项、自动生成新闻通稿。最后，她再给稿件注入一些“灵魂”和相应必要的修改，原来需要4个小时完成的工作，现在1个小时就可以完成。董一帆说，有了星火后，她终于有时间带家人一起去旅游了。

来自湖北的郭亮先生，他原来是个很活泼的人，但是因为在工作岗位上听力受损后，变得沉默寡言。自从孩子给他用了讯飞的智能助听器，这个助听器是由星火大模型在后台赋能的，可以精准地把背景噪音过滤掉，把声音中的有效信息的音量提升，而且根本不用到线下的专业机构检测（听损情况），坐在家里就能非常方便地检测。同时，助听器的成本是国外相关助听设备的十分之一，效果更好。郭亮先生和我们分享说，现在有了星火，他开始第一次出门和老朋友们谈天说地，重新恢复到年轻时候的诙谐幽默、善于交际的状态。

一位在重庆的70岁老人杨勇，他被朋友借走的养老钱迟迟得不到归还，有了星火，从法律援助上星火大模型教他应该怎么做，哪些应该留痕、应该如何获得帮助、如何去起诉，最后在不懂法的情况下，讯飞星火帮他要回了欠款。这些事情真实发生在我们每个人身边，可能将来就会关乎我们每个人或每个家庭中的某个亲属。

讯飞星火APP自去年9月正式全民开放后，目前在安卓端统计到已经累计下载了1.31亿次（安卓能够统计到下载量，苹果不公布下载量）。在安卓端，所有下载的大模型相关的APP中，讯飞星火APP的下载量在工具类排第一。工具类是指有通用大模型能力的APP，而不是娱乐相关的。讯飞星火APP中有写作、编程、工作、学习、生活、亲子、翻译等各种各样的助手，很多助手都是用户用了几百万甚至几千万次的。

讯飞星火APP的使用高峰期不是周末，而是工作日；不是晚上，而是工作日的上午9:30和下午3:30。这说明大家真正用星火来解决工作中的刚需问题。我们一直说大模型应该是解放生产力、释放每个人想象力的，从这些数据就可以看到。

另外，科大讯飞开始不断地把软件和硬件结合。讯飞录音笔、讯飞翻译机、讯飞智能鼠标、讯飞会议耳机等在今年的电商“618”上，销量又同比增长了70%。这是为什么？就是因为大模型所带来的智能硬件在真正解决刚需上又大大前进了一步，所以现在已经有很多用户在享受通用人工智能时代的红利。我们怎么跟上这个时代，怎么最先享受这个时代的红利？就得从这些看得见、摸得着的APP，看得见、摸得着的软硬件产品入手。

讯飞星火V4.0七大核心能力全面提升

全面对标GPT-4 Turbo

从去年5月6日的讯飞星火V1.0一路走到今天的讯飞星火V4.0的发布，有一点非常令我们自豪——讯飞星火大模型是基于全国产算力平台训练出来的。

去年10月24日，我们与华为联合软硬件一体化，科大讯飞提供了大量的算子库和算法资源，联合在安徽发布了中国首个国产万卡算力集群，这是中国第一个能训千亿以上浮点参数大模型的硬件平台。在这个硬件平台上，讯飞星火是中国第一个基于国产算力训练出来的全民开放的大模型。

什么叫全民开放大模型？就是国家网信办等八个部委联合认证，老百姓可以随即下载使用的大模型。当时是唯一的，今天讯飞星火V4.0发布还是唯一的，在全国产算力平台上训练的大模型，所有算法都是我们自主可控的，每一行码、每一个数据都是我们自己编写、自己清洗出来的大模型。一定程度上，今天星火大模型V4.0的发布对完全自主可控的大模型究竟走到了什么样的发展阶段，具有非常重要的标志意义。

那么在这个基础上，讯飞星火V4.0到底到了什么水平？

这是基于认知智能全国重点实验室和中国科学院人工智能产学研创新联盟、长三角人工智能产业链联盟，在去年6月份联合发布的国产通用认知智能大模型测评体系。这个体系一共有7个主要方面，涵盖了481个测试项，所有数据都是“背靠背”测试，数据都是随机动态产生的。非常高兴的是，讯飞星火V4.0已经实现了（大家公认最好的通用认知大模型）GPT-4 Turbo的对标，我们在文本生成、语言理解、知识问答、逻辑推理、数学这些能力上都已经实现超越，在代码和多模态能力上还有差距。

代码能力是我们非常关注的能力之一，因为它涉及未来的产业信息化和信息产业化的核心，而ChatGPT去年2月份通过谷歌二级程序员测试，当时的GPT-3.5用这个测试集只获得了60多分，GPT-4 Turbo今年1月份测试大概在80分，现在到86分，也在快速迭代和进步。我们预计在今年8月份，讯飞星火会达到现在86分以上的水平。

多模态能力还有所差距，是因为我们当前在文生视频上还没有算力，也不是下一步的核心重点，但是有生态伙伴一起做。

但在多模态方面，有一个非常重要的应用，就是图文识别。无论是医疗领域，能不能看懂电子病历、看懂体检报告；还是教育领域，能不能看懂笔记、看懂考卷；以及在司法、金融、科研、办公等各个领域的应用，图文识别能力都是至关重要的。

科大讯飞的图文大模型以及星火大模型中的图文能力，在国际上现在是先进的。我们与GPT-4o做了对比，因为GPT-4o在多模态方面，特别是图文上面比GPT-4 Turbo要强。所以，我们与5月14日OpenAI发布的GPT-4o最新版本相比，各个专门领域讯飞星火V4.0的效果都比它好，不仅仅在OCR直接识别上，关于版面的自动理解、更合理的版式认知结构等方面，我们都做得更强，从而使得今天要给大家看到的很多应用，它的落地更能够解决刚需。

在中文领域，讯飞星火V4.0实现了对标GPT-4 Turbo，那么在英文领域怎么样？这是国际各种主流机构给出来的，最主流的中英文测试集，绝大部分是英文，中间有理解推理、综合考试、数学科学和代码等维度的测试。大家可以看到，一共12项主流测试集，绝大部分是英文的，讯飞星火V4.0有8项实现了超越。这个数据大家可以直接调用我们的API自己去测，这是很令我们自豪的进展。

除了这些测试集，现在评判大模型技术的聪明程度，高考和中考也是最重要的例子。在刚结束的中高考，《中国科学报》做了一个各家大模型在高考语文、数学、英语中得分的综合报道，讯飞星火是最好的。各大高校、媒体也对高考语文、英语、数学和物理做了测试，讯飞星火都是排在最前面的；各家大模型在2024北京中考的表现，中国教育技术协会也做了评测，在中考数学的答题完成率和准确率上星火都是第一，语文、英语作业评价也非常高，均优于GPT-4o 的表现，这是最新鲜的实际对比的榜单。当然，在这中间也看到，星火大模型在数学、物理上面还有很大的空间要提升。

随着高考的题目越来越强调知识运用能力和综合素质，我们越来越看到大模型发展和前进的方向。今天其实除了给大家看这些结果，我们会通过一系列的演示让大家从实际场景中看到我们大模型应用的脚步。

我先举几个例子，比如说“复杂指令”，现在得到了很好的提升。我们要求它写一篇文章，可以提非常多的要求。例如对标题使用修饰手法、需要引经据典的情况以及要用成语等，它全部都能理解，这就是“复杂指令”的跟随能力。这项能力对大模型来说是很难的，大家如果去测就会发现星火的能力现在比GPT-4o和GPT-4 Turbo或其他大模型都要明显领先，这也是星火大模型将来解决各种复杂场景工作的基本能力。

在“复杂推理”方面，数学竞赛爱好者喜欢做的这道推理题，大部分人看了会头晕，机器也都可以做出来。

在“空间推理”方面，像这样一个问题：你在客厅里面这个人走来走去，但是球放在杯子里，把杯子倒过来，然后再问大模型“球在什么地方？”它一定要理解如果倒过来球就掉下来了这一前提，同时还需要知道是在什么地方倒的，要能够自己推测出来球在哪儿，这就是“空间推理”能力，也要进一步提升，我们说的具身智能要依靠大模型底层能力的提升是非常重要的方面。

另外，还要有“多模理解”能力，比如说刚才说的OCR识别，不光识别具体的体检报告、具体的笔记、具体的文书等，星火大模型还能够把多张图片整合在一起去理解，关于逻辑关系的“多模理解”，我觉得这是非常重要的。这一次，讯飞星火V4.0也有了非常大的提升，已经不仅仅是识别单张照片了。所以逻辑关系支撑下的多模理解，是下一步多场景切换的非常重要的底层能力。

还有一个非常重要的是大模型在学习和获取知识方面以及长文本能力方面，这段时间在业界引发热议。

什么叫长文本能力？给大模型一个非常多字的、很长的书籍或者一堆文章和资料内容，就可以去让它做要素抽取、做总结摘要，可以对它提问，还可以让它生成。但现在无论是国内各家还是GPT-4 Turbo、GPT-4o都面临一个困难：把这么多文本给大模型后，对它提问，它会回答，但是回答中间总有那么一部分比例是不靠谱的，是一本正经地胡说八道，但又没办法去核实，除非把这本书从头到尾看一遍，这样我们的效率就降低了。

随着星火长文本通用能力的提升，这一次我们在业界首发内容溯源功能。当你向星火提问，它回答完，会告诉你为什么这么回答，是参考了哪一段内容，这样当我们没有时间看全文的时候，只要去核实它的溯源就行了，这使得大模型的“幻觉”得到极大的降低。当然，不仅仅是长文本，也可以是长图文、长语音、一大段录音，拍的很多照片和文本放在一起，你可以随便问，大模型可以组合在一起，进行要素抽取、文档总结、问答等。

特别想说一下关于“英文溯源”，星火大模型不是把英文翻译成中文，然后去找对应的关系，而是真正基于英文自动训练出来的英文溯源能力。只有这样，你才能未来真正在各种英文的历史典籍、英文的科研资料中，真正地达到跟ChatGPT、OpenAI一样地对我们的科研人员提供相关的长文本溯源的帮助，所以这是非常关键的一项。

很多人使用大模型是从一年前的陌生，到现在慢慢开始靠近、尝试使用它。但在很多时候，我们发现无论是写文章、问答，或者给我们进行专业指导的时候，大多数只具备很强的通用性，它很正确但不具备针对性，可以说放之四海而皆准，但缺乏了个性化。当要写一封感谢信，回复一个邮件，或者要根据具体的工作资料写一个相关的调研报告或分析报告，就需要有个性化。

从“通用AI助手”到“懂你的AI助手”

这一次星火大模型非常重要的底层能力是什么？要让我们的通用人工智能从通用助手变成更懂你的AI助手，这中间的底层技术是什么？是需要能够有基于用户画像的个性化表达，要能够使用你的历史记忆学习，知道你的特点、关注什么、最想表达什么。其中，基于个人资料的增强学习可以是个人的工作资料，也可以是随时在网上找到的参考资料等。

这一次我们在星火APP和DESK上全新升级的核心，一是星火APP变得更加方便快捷，更有针对性地理解每个人需求，刚才说的AI人设，大家现在可以下载来体验，在DESK上也一样的。我们把大模型变得更加专业高效，其中一个非常重要的内容就是增加了“个人空间”，让你的文章写得更有个人特点，有人设，我们可以自己存放自己的学习、工作、生活与健康等相关内容，从而使得它更加个性化，更加具备自己的专业知识。

在讯飞星火APP上，还有一个叫智能体的功能，把我们每个人都关心的医疗助手、学习口语的英语听说助手，数学解题、代码等这些相关的、大家最喜欢用的功能全部都放在这里，做了非常方便快捷、可以调用的智能体。

另外，跟我们的智能硬件相结合，讯飞智能录音笔、讯飞翻译机等智能硬件和讯飞星火APP从数据贯穿、账号互联到操作联动都真正打通了。举例来说，用讯飞智能办公本录下一段政府开会的会议录音，马上同步到讯飞星火上，它就能写政府公文、写工作PPT、可以生成待办事项，并且发送邮件给相关人员。

打造每个人更便捷的助手，今天我们会给大家展示一些典型行业的应用，这些行业应用既是大家在大模型时代特别关注的一些应用，同时也给我们的合作伙伴、开发者更多的参考和借鉴。

星火医疗大模型再次升级

每个医生的AI诊疗助理每个人的AI健康助手

首先是医疗，讯飞星火医疗大模型再次升级了。产业发展都要有核心的梦想来支撑。医疗领域的使命和愿景就是用人工智能打造每个医生的AI诊疗助理，打造每个人的AI健康助手。这件事情在过去几年之中，科大讯飞通过智医助理帮助基层医生进行诊疗，累计已经给出8.2亿次的辅助诊断，涉及的电子病历超过3亿个，一共修正了147万次的错误诊断，识别出来了7267万的用药错误和不合理处方。在这些能力持续积累的基础上以及讯飞星火V4.0不断升级进化，现在的医疗大模型始终走在业界前列。去年3月，GPT-4推出来的时候已经达到了美国执业医师资格考试的条件，而我们现在与最新的GPT-4 Turbo相比，无论在医学相关的知识问答、复杂的语义理解、专业文书生成，还是诊断治疗以及多轮对话的各项指标上，我们都已经实现了超越。

去年10月24日，我们推出的每个人的健康助手讯飞晓医APP，每个人都可以下载到自己手机上来使用，现在已经累计有1200万的下载量，用户好评率有98.8%，用户推荐率有42%，很多人表示讯飞晓医APP已经超出了预期。

举个例子，看病前你可以问晓医，它会告诉你这个情况到底严不严重，如果要看病建议到哪些科室、找谁，还可以生成就医小贴士。目前，讯飞晓医APP已经可以看1600种常见疾病。大家或许不知道，目前基层医生能够诊断的常见疾病是300种，有2000多种的常见症状，我们都可以自动判断；吃药的时候问晓医，有的药不能在一起吃，否则会有不良反应；一些有基础疾病或者孕妇、孩子不能吃的药，讯飞晓医APP都能够专门提醒。讯飞晓医APP可以识别有2800多种常见药品，理解26万个药品相互作用；体检之后很复杂的体检报告，我们看不懂的时候，可以直接问晓医，现在6000多种常见的检查检验，讯飞晓医APP都支持文字拍照的录入。在这个基础上，讯飞晓医APP这次进一步升级了，能够把个性化的电子病历检查报告以及过去问诊情况，在个人健康空间存下来，在看病、用药、检查时，给我们更深入更具体的帮助。

讯飞晓医已经通过了国家信息系统安全等级保护三级认证，也通过了中国泰尔实验室，国家信息通信研究院的数据安全检验报告等，所以大家可以放心，我们会保护大家在晓医后台的个人体检报告和其他信息的安全。