Мультимодальность
Также: multimodal, мультимодальные модели
Способность модели работать сразу с несколькими типами данных — текстом, изображениями, звуком. Позволяет, например, описать словами скриншот отчёта.
Мультимодальность — умение нейросети понимать и порождать разные форматы: не только текст, но и изображения, аудио, иногда видео. Мультимодальная модель может «посмотреть» на скриншот кампании и объяснить его словами.
Зачем это на практике
Раньше для каждого типа данных нужна была своя модель. Мультимодальные LLM (современные версии Claude, ChatGPT, Gemini) совмещают это: загрузили график — получили анализ; описали товар — получили картинку.
Применение в рекламе
Мультимодальность помогает разбирать визуальные креативы, читать скриншоты статистики, генерировать баннеры по текстовому описанию. Direct Manager использует генеративный ИИ для создания изображений баннеров под товар и оффер.