На презентації OpenAI у Сан-Франциско представили нову версію мовної моделі з генеративним штучним інтелектом GPT-4o. Тестувальники нових функцій вважають, що розробникам вперше вдалося наблизити програму до моделі спілкування реальних людей.
Адже GPT-4o вміє співати, змінювати інтонацію голосу, розпізнавати емоції користувача та аналізувати візуальну інформацію. На практиці це виглядає так: ШІ через фронтальну камеру та динаміку телефону розпізнає людину.
Потім дуже докладно описує його одяг, емоції, особливості кімнати та інші деталі. А після цього на основі побаченого та почутого GPT-4o може навіть скласти та виконати пісню.
Або, наприклад, в іншому випадку штучний інтелект розпізнав записане на папері рівняння, дав підказки щодо його вирішення і навіть виправив некоректні варіанти користувача.