Поддерживаемые входные файлы и требования для Vertex AI Gemini API

При вызове API Vertex AI Gemini из вашего приложения с помощью Vertex AI for Firebase SDK вы можете предложить модели Gemini сгенерировать текст на основе мультимодального ввода. Мультимодальные подсказки могут включать в себя несколько модальностей (или типов ввода), например текст, изображения, PDF-файлы, видео и аудио.

Для нетекстовых частей входных данных (например, медиафайлов) вам необходимо использовать поддерживаемые типы файлов, указать поддерживаемый тип MIME и убедиться, что ваши файлы и мультимодальные запросы соответствуют требованиям и следуют передовым практикам.

  • Поддерживаемые входные файлы зависят от модели и могут включать изображения, PDF-файлы, видео и аудио.

    • Обратите внимание, что поддерживаемый видеовход также зависит от модели и может включать только кадры или кадры со звуком.
  • Требования и рекомендации для входных файлов и мультимодальных запросов:

    • В разделе «Знакомство с моделями Gemini» вы можете найти краткий обзор требований к поддерживаемым файлам в зависимости от модели (например, максимальное количество файлов и максимальный размер файла).

    • В документации Google Cloud вы можете узнать подробную информацию о требованиях и рекомендациях для входных файлов и мультимодальных запросов (например, поддерживаемые типы MIME и когда предоставлять входной файл в запросе).

Требования, специфичные для Vertex AI для Firebase SDK

Для Vertex AI for Firebase SDK максимальный размер запроса составляет 20 МБ . Вы получаете ошибку HTTP 413, если запрос слишком велик.