Нова версія Google Gemini почала звучати «по-людськи»
Компанія Google представила нову нейромережну модель Gemini 3.1 Flash Live, «заточену» під синтез мовлення. За словами розробників, ця версія ШІ робить синтезований голос максимально реалістичним: іншими словами людям стане набагато складніше визначати, що вони спілкуються з роботом.
Google стверджує, що в порівнянні з попередницею Gemini 3.1 Flash Live швидше відповідає на питання, краще вимовляє слова при спілкуванні мовами, відмінними від англійської, а також має збільшене контекстне вікно, завдяки чому довше зберігає нитку діалогу.
Нейросеть показала високі результати в бенчмарках ComplexFuncBench Audio та Big Bench Audio. В останньому вона вирвалася у лідери, відповівши голосом на 1000 запитань. Втім, у Scale AI Audio MultiChallenge 3.1 Flash Live ШІ набрав лише 36,1% проти середніх 50% в інших голосових роботів. Цей бенчмарк оцінює здатність обробляти переривання та перешкоди в діалозі.
Google стверджує, що нова нейромережа звучить дуже реалістично, тому її голос маркується міткою SynthID. Це дозволить перевірити аудіодоріжку, якщо виникнуть сумніви щодо її справжності.
Функції Gemini 3.1 Flash Live найближчим часом з'являться у голосовому режимі Gemini Live та Search Live, а розробники можуть скористатися моделлю через AI Studio, API Gemini та конструктор Gemini Enterprise for Customer Experience.