OpenAI发布多模态模型GPT-4：已经能在SAT考试中击败90%人类！

　　北京时间3月15日凌晨，ChatGPT开发商OpenAI 发布了发布了全新的多模态预训练大模型 GPT-4，可以更可靠、更具创造力、能处理更细节的指令，根据图片和文字提示都能生成相应内容。

　　具体来说来说，GPT-4 相比上一代的模型，实现了飞跃式提升：支持图像和文本输入，拥有强大的识图能力；大幅提升了文字输入限制，在ChatGPT模式下，GPT-4可以处理超过2.5万字的文本，可以处理一些更加细节的指令；回答准确性也得到了显著提高。

　　OpenAI表示，它使用的是微软(MSFT.US)Azure训练模型，微软此前已经向其投资了数十亿美元。OpenAI没有公布具体模型大小的细节，也没有公布用来训练模型的硬件，理由是“竞争情况”。

　　根据此前资料显示，发布于 2020 年的 GPT-3 有 1750 亿个参数，而GPT-4 的参数据猜测可能将达到约 100 万亿个参数。这也使得GPT-4 在能力、范围和潜力方面相比GPT-3，将拥有一个质的飞跃。

　　OpenAI 指出，相较前一代的GPT-3.5， GPT-4在许多专业测试中表现出超过绝大多数人类的水平。在包括美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试，在这些测试中，它的得分均高于88%的应试者。在美国法学院毕业生参加的律师资格考试中，旧模型得分在应试者中排名后10%，而新模型得分在应试者中排名约前10%，即击败了约90%的人类。

　　OpenAI 总裁Greg Brockman 称，GPT-4 可拍摄一张简单网站的手绘模型照片，并以此为基础创建真正的网站。根据实际演示，GPT-4 还能计算税收。

　　OpenAI表示，虽然两个版本在日常对话中看起来很相似，但当任务复杂到一定程度时，差异就表现出来了，GPT-4模型将更可靠、更有创造力，能够处理更微妙的指令。不仅能够产生更少的错误答案，更少地偏离话题，更少地谈论禁忌话题，甚至在许多标准化测试中比人类表现得更好。“在我们的内部评估中，它产生正确回应的可能性比GPT-3.5高40%。”

　　不过，OpenAI也警告称，GPT-4还不完美，在许多情况下，它的能力不如人类。它仍然存在“幻觉”或自己编造的主要问题，而且在事实问题上并不可靠。它仍然倾向于在错误的时候坚持自己是正确的。

　　OpenAI CEO Sam Altman 在Twitter 上表示GPT-4 是最有能力和符合人类价值观和意图的模型，尽管它仍具有缺陷。GPT-4 回应无法生成内容请求的可能性比前一代低82%，在部分真实性测试中得分高40%。

　　据微软表示，他们与 OpenAI 共同开发的 Bing Chat 目前正在基于 GPT-4运行。

　　在GPT-4 发布后，OpenAI 也直接升级了 ChatGPT。文字输入功能将供给ChatGPT Plus 订阅者（可以在 chat.openai.com 上获得），但图像输入功能仍是预览版本。如果要访问 GPT-4 API（它使用与 gpt-3.5-turbo 相同的 ChatCompletions API），用户可以注册等待。OpenAI 会邀请部分开发者体验。

　　至于价格方面，定价为每 1k 个 prompt token 0.03 美元，每 1k 个 completion token 0.06 美元。默认速率限制为每分钟 40k 个 token 和每分钟 200 个请求。

　　GPT-4 的上下文长度为 8,192 个 token。OpenAI 还提供了 32,768 个 token 上下文（约 50 页文本）版本的有限访问，该版本也将随着时间自动更新（当前版本 gpt-4-32k-0314，也支持到 6 月 14 日)。定价为每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

　　值得一提的是，谷歌于当地时间周二宣布推出协作软件“魔杖”（magic wand），几乎可以起草任何文件。

同花顺-圈子