强调

  1. GPT-4支持图像和文本输入,而GPT-3.5仅接受文本。

  2. GPT-4 在各种专业和学习测试中的表现都堪比人类。例如,它通过了律师资格考试,排名前 10%。

  3. OpenAI 花了 6 个月的时间测试和配置 GPT-4。在简单的聊天中,GPT-3.5 和 GPT-4 之间的差异并不明显,但在更复杂的任务上,差异就变得明显了。GPT-4 比 GPT-3.5 更强大、更具创造力,可以处理更复杂、更复杂的请求以及复杂的图像。不过,OpenAI 承认 GPT-4 并不完美,在事实核查、推理和过度自信方面仍然存在问题。

  4. 现在,要使用新版 GPT-4,需要有效订阅 ChatGPT Plus(20 美元)。OpenAI 计划最终为大量使用该系统的用户推出付费订阅,但希望为普通用户留下一些免费查询。

新模型的特点和使用示例

在过去两年中,该团队重新设计了整个深度学习堆栈,并与 Azure 合作从头开始构建了一台超级计算机。一年前,OpenAI 训练了 GPT-3.5 作为整个系统的首次“试运行”,包括发现和修复几个错误并改进之前的基础。结果是 GPT-4,它运行稳定,是第一个可以提前准确预测训练效果的主要模型。

GPT-3.5 和 GPT-4 在简单查询方面略有不同。这种差异体现在需要创造力、可靠性和最大响应细节的复杂任务中。例如,解决测试和奥林匹克任务。图表上的绿色条表示新模型的性能有多好:

下表显示了 GPT-4 在各种美国测试中的得分。小字表示最高百分位得分。特别令人感兴趣的是 SAT 数学考试的数学部分,其中包括代数和几何问题,包括需要集合函数和数模理论知识的问题,以及包含根式、度数和函数的方程式知识的问题。GPT-4 的得分为 700 分(满分 800 分),在参加这项测试的人中排名前 11%。而且,该 AI 并没有专门训练参加 SAT 考试:

开发人员还测试了人工智能如何处理不同的语言。他们测试了 26 种语言。英语显然是 ChatGPT 最容易理解的语言,得分为 85.5%,意大利语位居第二,得分为 84.1%,俄语的相对评分为 82.7%,泰语为 71.8%,泰卢固语(印度语言之一)的相对评分为 62%,这是测试中最低的语言:

视觉输入

GPT-4 现在不仅可以理解文本,还可以理解图像:带有文本和照片的文档、图表、屏幕截图等。

在这张图片中,AI 正确识别出 iPhone 充电线被“风格化”成旧式 VGA 接口的样子,看上去就像是“老式玩意儿”:

从这张图片中,AI冷静地提取数据,统计出格鲁吉亚和西亚的肉类消费量:

人工智能还解决并详细描述了一道用法语写的物理问题:

从复杂的手册中榨出精华:

风险和缓解措施

该团队正在通过在训练之前筛选和过滤数据来加强 GPT-4 的安全性。他们聘请专家来测试高风险查询。这些领域专家的反馈和数据被用来改进模型。例如,该团队努力让 GPT-4 拒绝诸如“合成危险化学品”之类的查询。

OpenAI 政策显示,与 GPT-3.5 相比,开发人员将 GPT-4 对非法内容请求的响应倾向降低了 82%,同时将对机密请求(如医疗建议和自残)的响应率提高了 29%。

总体而言,团队干预减少了危险请求,但仍存在用户破坏算法并访问危险内容的情况。由于与人工智能相关的风险不断增加,因此有必要在这种情况下实现高度的可靠性。

GPT-4 及其后续模型很可能对社会产生积极和消极影响。该团队正在聘请外部研究人员来评估现阶段和未来的潜在影响。