ChatGPT-4 的新功能

RomanPushka · 2023-03-16T10:20:30.000Z

强调 GPT-4支持图像和文本输入，而GPT-3.5仅接受文本。 GPT-4 在各种专业和研究测试中的表现与人类相当。例如，它通过了律师资格考试，在考生中名列前10%。 OpenAI 花了 6 个月的时间测试和配置 GPT-4。在简单的聊天中，GPT-3.5 和 GPT-4 之间的差异并不那么明显，但在更复杂的任务中，差异就变得明显了。 GPT-4比GPT-3.5更健壮、更有创意，可以处理更复杂、更复杂的请求以及复杂的图像。不过，OpenAI承认GPT-4并不完美，它在事实核查、推理和过度自信方面仍然存在问题。

强调  GPT-4支持图像和文本输入，而GPT-3.5仅接受文本。
GPT-4 在各种专业和学习测试中的表现都堪比人类。例如，它通过了律师资格考试，排名前 10%。
OpenAI 花了 6 个月的时间测试和配置 GPT-4。在简单的聊天中，GPT-3.5 和 GPT-4 之间的差异并不明显，但在更复杂的任务上，差异就变得明显了。GPT-4 比 GPT-3.5 更强大、更具创造力，可以处理更复杂、更复杂的请求以及复杂的图像。不过，OpenAI 承认 GPT-4 并不完美，在事实核查、推理和过度自信方面仍然存在问题。
现在，要使用新版 GPT-4，需要有效订阅 ChatGPT Plus（20 美元）。OpenAI 计划最终为大量使用该系统的用户推出付费订阅，但希望为普通用户留下一些免费查询。
新模型的特点和使用示例在过去两年中，该团队重新设计了整个深度学习堆栈，并与 Azure 合作从头开始构建了一台超级计算机。一年前，OpenAI 训练了 GPT-3.5 作为整个系统的首次“试运行”，包括发现和修复几个错误并改进之前的基础。结果是 GPT-4，它运行稳定，是第一个可以提前准确预测训练效果的主要模型。
GPT-3.5 和 GPT-4 在简单查询方面略有不同。这种差异体现在需要创造力、可靠性和最大响应细节的复杂任务中。例如，解决测试和奥林匹克任务。图表上的绿色条表示新模型的性能有多好：
下表显示了 GPT-4 在各种美国测试中的得分。小字表示最高百分位得分。特别令人感兴趣的是 SAT 数学考试的数学部分，其中包括代数和几何问题，包括需要集合函数和数模理论知识的问题，以及包含根式、度数和函数的方程式知识的问题。GPT-4 的得分为 700 分（满分 800 分），在参加这项测试的人中排名前 11%。而且，该 AI 并没有专门训练参加 SAT 考试：
开发人员还测试了人工智能如何处理不同的语言。他们测试了 26 种语言。英语显然是 ChatGPT 最容易理解的语言，得分为 85.5%，意大利语位居第二，得分为 84.1%，俄语的相对评分为 82.7%，泰语为 71.8%，泰卢固语（印度语言之一）的相对评分为 62%，这是测试中最低的语言：
视觉输入GPT-4 现在不仅可以理解文本，还可以理解图像：带有文本和照片的文档、图表、屏幕截图等。
在这张图片中，AI 正确识别出 iPhone 充电线被“风格化”成旧式 VGA 接口的样子，看上去就像是“老式玩意儿”：
从这张图片中，AI冷静地提取数据，统计出格鲁吉亚和西亚的肉类消费量：
人工智能还解决并详细描述了一道用法语写的物理问题：
从复杂的手册中榨出精华：
风险和缓解措施该团队正在通过在训练之前筛选和过滤数据来加强 GPT-4 的安全性。他们聘请专家来测试高风险查询。这些领域专家的反馈和数据被用来改进模型。例如，该团队努力让 GPT-4 拒绝诸如“合成危险化学品”之类的查询。
OpenAI 政策显示，与 GPT-3.5 相比，开发人员将 GPT-4 对非法内容请求的响应倾向降低了 82%，同时将对机密请求（如医疗建议和自残）的响应率提高了 29%。
总体而言，团队干预减少了危险请求，但仍存在用户破坏算法并访问危险内容的情况。由于与人工智能相关的风险不断增加，因此有必要在这种情况下实现高度的可靠性。
GPT-4 及其后续模型很可能对社会产生积极和消极影响。该团队正在聘请外部研究人员来评估现阶段和未来的潜在影响。