DirectManager
ИИ и нейросети

Мультимодальность

Также: multimodal, мультимодальные модели

Способность модели работать сразу с несколькими типами данных — текстом, изображениями, звуком. Позволяет, например, описать словами скриншот отчёта.

Мультимодальность — умение нейросети понимать и порождать разные форматы: не только текст, но и изображения, аудио, иногда видео. Мультимодальная модель может «посмотреть» на скриншот кампании и объяснить его словами.

Зачем это на практике

Раньше для каждого типа данных нужна была своя модель. Мультимодальные LLM (современные версии Claude, ChatGPT, Gemini) совмещают это: загрузили график — получили анализ; описали товар — получили картинку.

Применение в рекламе

Мультимодальность помогает разбирать визуальные креативы, читать скриншоты статистики, генерировать баннеры по текстовому описанию. Direct Manager использует генеративный ИИ для создания изображений баннеров под товар и оффер.

Связанные термины