Google AI учится говорить по-дельфиньи

Абхиманью Гошал

Исследователи разработали DolphinGemma, первую большую языковую модель для понимания языка дельфинов. Она может помочь нам переводить то, что говорят эти невероятные существа, потенциально гораздо быстрее, чем мы когда-либо могли бы с ручными подходами, используемыми в течение нескольких десятилетий.

«Целью будет когда-нибудь заговорить на дельфиньем языке», — говорит доктор Дениз Херцинг. Ее исследовательская организация The Wild Dolphin Project (WDP) занимается исключительно изучением определенной стаи свободно плавающих атлантических пятнистых дельфинов, которые обитают у берегов Багамских островов.

Последние 40 лет она собирает и систематизирует звуки дельфинов и сотрудничает с доктором Тэдом Старнером, научным сотрудником Google DeepMind, дочерней компании технологического гиганта, занимающейся разработкой искусственного интеллекта.

Объединив свои возможности, они обучили модель ИИ на обширной библиотеке звуков дельфинов. Ее также можно расширить, чтобы вместить больше данных, и настроить на более точное представление того, что могут означать эти звуки. «… Передача звуков дельфинов в модель ИИ, такую как дельфин Джемма, даст нам действительно хорошее представление о том, существуют ли тонкие закономерности, которые люди не могут различить», — отметила Дениз Херцинг.

Дельфины обычно общаются друг с другом с помощью различных свистов (некоторые из которых являются именами), эхолокационных щелчков, помогающих им охотиться, и импульсных звуков в социальных контекстах.

С 1980-х годов исследователи записывали эти звуки с помощью гидрофонов (подводных микрофонов), анализировали их, чтобы найти похожие закономерности с помощью спектрограмм (визуальных представлений звука, которые показывают, как частотный состав сигнала изменяется с течением времени), а затем экспериментировали с дельфинами, воспроизводя эти звуки, чтобы наблюдать за их поведением. Был сделан огромный объем ручной работы, чтобы разработать каталог звуков дельфинов.

Слева: Самка дельфина пятнистого наблюдает за своим детенышем во время поиска пищи; она использует свой уникальный свист, чтобы подозвать детеныша обратно, когда он закончит есть. Справа: Спектрограмма для визуализации свиста

LLM команды, которая построена на фундаментальной технологии, поддерживающей модели Gemini от Google и ее популярный чатбот, использует сложную аудиотехнологию для представления звуков дельфинов в виде токенов. Она интенсивно обучается на акустической базе данных WDP диких атлантических пятнистых дельфинов и обрабатывает последовательности звуков, которые они производят, для определения шаблонов и структуры.

Google отмечает, что он может практически предсказывать вероятные последующие звуки в последовательности, подобно тому, как вы получаете подсказки, когда ищете что-то в Интернете или пишете электронное письмо и вам нужна помощь в завершении предложения.

Создание секретного языка

Что, если мы захотим выйти за рамки простого наблюдения за тем, как дельфины общаются друг с другом, и посмотреть, сможем ли мы общаться с ними на общем языке? Это то, что WDP параллельно изучает последние несколько лет с помощью Тэда Старнера. Он не просто гений ИИ, но и один из пионеров, стоящих за новаторским носимым устройством Google Glass (очки дополненной реальности).

Предыдущие элементарные системы общения с этими животными включали большую клавиатуру размером с нос дельфина, установленную на борту лодки еще в 1990-х годах. Идея заключалась в том, что исследователи будут взаимодействовать с дельфинами, передавая им привлекательные игрушки, и воспроизводить искусственные дельфиньи свистки, связанные с каждой большой клавишей с символом на ней. Они представляли, что дельфины могут указывать на эти клавиши, чтобы попросить игрушки. Вот как это выглядело (начинается с 6:43 в выступлении Херцинг на TED в 2013 году):

Поскольку это было не так интерактивно, как надеялись исследователи, они переключились на подводную клавиатуру, с которой можно было плавать. Хотя это и не привело к реальному обмену сообщениями, это показало, что дельфины были достаточно внимательны и сосредоточены, чтобы учиться общаться. Поэтому в 2010 году WDP начала сотрудничать с Технологическим институтом Джорджии, где Тэд Старнер является профессором, с целью разработки новой технологии для двусторонней коммуникации.

Вместе с Дениз Херцинг Тэд Старнер создал устройства CHAT (Cetacean Hearing and Telemetry) для двусторонней связи с дельфинами. Эти большие носимые устройства, построенные на основе подводного компьютера, включали гидрофоны для обнаружения и записи вокализации дельфинов, динамики для воспроизведения искусственных свистков в воде и специализированный интерфейс, который дайверы могли использовать под водой.

Система работала, обнаруживая определенные свисты дельфинов и связывая их с объектами или концепциями. Исследователи также могли запускать искусственные свисты с помощью интерфейса, по сути «разговаривая» с дельфинами, используя звуки, которые они могли бы потенциально научиться связывать с определенными объектами.

С тех пор команда обновляла аппаратное обеспечение и внедряла в него ИИ. Используя телефоны Google Pixel в своих носимых устройствах, исследователи выполняли ту же процедуру, что и с более ранней системой CHAT. Они могли:

Показатье дельфинам какое-либо действие, например, подать им игрушку, и воспроизвести звук через подводный динамик, чтобы вызвать у них ассоциацию с этим действием.
Использовать носимое оборудование, чтобы идентифицировать имитируемый звук, издаваемый дельфинами, которые это наблюдали.
Сообщить исследователю (через наушники с костной проводимостью, работающие под водой), какой предмет «запросил» дельфин.
Дать возможность исследователю быстро отреагировать, предложив соответствующую игрушку, тем самым укрепив связь.

С моделью ИИ, способной к прогнозированию, в основе этой системы лежит помощь исследователям реагировать на дельфинов быстрее и естественнее. Использование готовых смартфонов означает, что CHAT теперь потребляет гораздо меньше энергии, его легче обслуживать, и он меньше предыдущей версии.

Слева: доктор Дениз Херцинг с «Chat Senior» в 2012 году; справа: аспирант Технологического института Джорджии Чарльз Рэми в обновленным «Chat Junior» в 2025 году.

Организация Херцинг развернет DolphinGemma в этом полевом сезоне, и эта новая модель должна ускорить усилия команды по изучению и документированию поведения атлантических пятнистых дельфинов. Google заявляет, что сделает DolphinGemma открытой моделью примерно в середине года, что означает, что она станет более доступной для исследователей в других частях мира. Компания утверждает, что ее можно будет адаптировать для использования с другими видами китообразных, такими как афалины или дельфины-спиннеры, с небольшой тонкой настройкой.

«Если у дельфинов есть язык, то, вероятно, у них есть и культура», — отметил Старнер. «Вы поймете, какие у них приоритеты, о чем они говорят». Это может дать нам совершенно новый взгляд на то, как общаются разумные виды в животном мире и как функционируют их общества.

Источник: New Atlas
Перевод с английского

Возможно, вам также будет интересно:

Инновационный «вечный блокнот» — золотая середина между цифровыми и бумажными носителями

Нанотехнологические прорывы меняют отрасли

Проблема — двигатель прогресса: инновации, которые улучшают жизнь