Google 发布 Gemini 1.5 Pro,支持原生音频理解

Gemini 1.5 Pro

AI资源网 2024 年 04 月 10 日消息,Gemini 1.5 Pro现已在超过180个地区通过Gemini API公开预览提供,引入了首次的原生音频(语音)理解能力和新的File API,以便于处理文件。此外,引入了系统指令和JSON模式等新功能,给开发者更多控制模型输出的能力。最后,发布了性能优越的下一代文本嵌入模型。

Gemini 1.5 Pro的主要更新内容

  1. 全球可用性Gemini 1.5 Pro现已在超过180个地区通过Gemini API公开预览提供,使得全球开发者都能访问并利用这一最新模型。
  2. 原生音频理解:引入了首次的原生音频(语音)理解能力,这意味着Gemini 1.5 Pro能够直接处理和理解音频输入,为开发者在音频处理和语音识别方面提供强大的工具。
  3. 新的File API:新推出的File API简化了文件处理过程,使得开发者能够更容易地在应用中处理音频、视频和其他文件类型。
  4. 系统指令:系统指令功能允许开发者定义角色、格式、目标和规则,以精确控制模型的输出,使其更贴合特定的应用场景和需求。
  5. JSON模式:JSON模式的加入,使得模型能够只输出JSON对象,便于从文本或图像中提取结构化数据,极大地提高了数据处理的效率和便捷性。
  6. 功能调用改进:改进了功能调用机制,开发者现在可以选择不同的模式来限制模型的输出,提高了模型输出的可靠性和实用性。
  7. 新一代文本嵌入模型:推出了性能优越的新一代文本嵌入模型(text-embedding-004),在MTEB基准测试中显示出比现有模型更强的检索性能,为文本分析和语义理解提供了强大的支持。
  8. 更广泛的输入模态支持Gemini 1.5 Pro扩展了对不同输入模态的支持,包括音频理解,并计划很快增加对视频内容的图像(帧)和音频(语音)跨模态推理的API支持,为开发者提供更多元化的应用可能。
Gemini 1.5 Pro
音频理解演示

这些更新不仅展示了GoogleAI技术不断创新的承诺,也为开发者提供了更多工具和资源,以便更好地构建和优化他们的应用程序和服务。

如何使用Gemini 1.5 Pro?

  1. 获取API密钥:在Google AI Studio创建或访问您的API密钥,开始构建。
  2. 音频和视频模态的新用例:Gemini 1.5 Pro扩展了输入模态,包括在Gemini API和Google AI Studio中的音频(语音)理解。此外,Gemini 1.5 Pro现在能够对上传到Google AI Studio的视频进行图像(帧)和音频(语音)的跨模态推理,API支持即将推出。
  3. 系统指令:在Google AI Studio和Gemini API中,通过系统指令指导模型的响应。定义角色、格式、目标和规则,以引导模型针对您的特定用例行为。
  4. JSON模式:指示模型仅输出JSON对象,此模式支持从文本或图像中提取结构化数据。您可以使用cURL开始,Python SDK支持即将到来。
  5. 功能调用的改进:现在可以选择模式来限制模型的输出,提高可靠性。选择文本、功能调用或仅函数本身。

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。