Почему малыe языковыe модели – будущее искусственного интеллекта

by - 25 сентября 2024

В конце весны, Microsoft анонсировали новую, свободно доступную малую языковую модель, скромно названную Phi-3-min. Возможно, это было самым важным событием с тех пор, как ChatGPT положил начало публичной гонке вооружений в области ИИ полтора года назад.

Что такое малые языковые модели и чем важна Phi-3?

Малые языковые модели — не бездонный источник информации обо всем на свете, а гораздо более прикладные инструменты. Если ChatGPT — это энциклопедия объемом в миллион томов, то Phi-3 — домашняя библиотека, подобранная по определенной теме. Малые модели вряд ли пройдут тест Тьюринга, выдержав непринужденную беседу на случайную тему, но могут соперничать с хорошо подготовленным специалистом в практически любой области. Публичный выпуск модели — важная веха, поскольку Phi-3 одновременно сравним по мощности с бесплатной версией ChatGPT, и достаточно легкий для того, чтобы запускаться на мобильном телефоне.

Почему мы с Сэмом Альтманом сходимся в том, что конец эпохи больших языковых моделей не за горами?

Это было шоу

Публичные выступления ботов — пишущих диссертации, компьютерные игры и стихи, соблазняющих журналистов и угрожающих заменить все работающее население планеты, было необходимо для тестирования моделей, ускорения их обучения и представления инвесторам нового класса продуктов. В апреле 2024 года шестимесячный стартап, не приносящий дохода, мог быть оценен в 2 миллиарда долларов. Это может вызвать удивление и раздражение, но если у институциональных инвесторов (и широкой общественности) есть основания верить, что, в обозримом будущем, модель стартапа могла бы заменить отдел опытных программистов — оценка становится менее абсурдной. В обозримом будущем; возможно; через несколько лет; или месяцев – кто знает? 

Большие модели стоят огромных денег и не смогут вечно оставаться бесплатными

Создание всемирной энциклопедии, отвечающей на сто миллионов вопросов в день, требует больших вычислительных мощностей и энергии – и то и другое стоит денег. Пока ChatGPT необходим для поддержания оценки Open AI, это может быть разумной инвестицией, но ограниченные ресурсы не могут сжигаться бесконечно — гигантские модели будет необходимо монетизировать. Meta внедрит свой искусственный интеллект в собственные программы, которыми и так пользуются миллиарды, и будет производить более эффективную (то есть — дорогую) рекламу. Очевидная альтернатива рекламе — подписка, но поддержание даже текущей версии GPT обходится до 20 миллионов долларов в месяц. Играть с ботом может быть забавно, но сколько пользователей согласится за это платить? Для корпоративного пользования всемирная энциклопедия, как правило, не нужна. Я даже не говорю об экологических и PR-затратах на эксплуатацию огромных серверных ферм в мире, страдающем от нехватки воды и (чистой) электроэнергии.

Недостаток (законно полученных) данных для обучения

Большие языковые модели обучаются на огромных массивах данных. Условно говоря, для того, чтобы поддержать беседу о достоинствах рыбалки, ChatGPT должен переварить Интернет — от блогов и СМИ до роликов YouTube. Большие модели всеядны и вечно голодны, поглощая все, что попадается на пути, что приводит к трем серьезным проблемам.

Потребность в огромном объеме данных

Несмотря на впечатляющие презентации, пока что генеративные модели — скорее очень продвинутые калькуляторы. Они не понимают ни значения слов, ни изображений, на которых обучаются, а просто вычисляют вероятность определенной последовательности букв или пикселей в определенном контексте. Это значит, что если человеку, чтобы стать физиком, нужно понять сотни книг, ИИ должен проглотить миллионы. При этом, почти все, что могло быть прочитано для такой тренировки — уже прочитано. Оставшиеся источники, например литература, обойдутся дорого и потребуют многочисленных соглашений, радикально замедляя темп обучения.

Потребность в качественных данных

Сверхчеловеческие возможности требуют сверхчеловеческих ресурсов. Для обучение больших языковых моделей нужен не просто миллион книг, а миллион хороших книг, потому что ИИ не мыслит и не оценивает, а принимает предоставленные данные на веру. Количество источников качественной информации стремительно подходит к концу. Теоритически, модели могут синтезировать данные самостоятельно — писать новые книги на основе уже прочитанных, и читать собственные измышления. Но, поскольку ошибки в таких материалах оперативно отследить невозможно, обучение на неверных данных приводит к деградации “интеллекта” модели с геометрической прогрессией.

Значительная часть качественных данных, использованных до сих пор, могла быть получена незаконно

Вердикт на этот счет, в самом буквальном смысле, еще не вынесен, но многочисленные иски художников, писателей, музыкантов и СМИ обвиняют техно-визионеров в нарушении авторских прав. Речь здесь, конечно, идет, в первую очередь, об американском рынке, модели которого пока доминируют. 

Ответ кремниевой долины, можно свести к тому, что “все, что «доступно публично» (т. е. можно найти в Интернете), является достоянием общественности и может быть бесплатно использовано для разработки коммерческих продуктов.” Вопрос, на сегодняшний день, не столько в том, могут ли компании втихую бесплатно использовать продукт чужого труда (очевидно — нет), а рискнет ли суд обрушить стоимость флагманов отрасли и превратить в пыль значительную часть многомиллиардных корпоративных инвестиций в инструменты, созданные на основании незаконно обученных моделей. Любой из текущих юридических споров может мгновенно положить конец гонке больших моделей.

Почему будущее за малыми языковыми моделями

Малые модели дешевле в использовании

Поддержание ChatGPT в рабочем состоянии стоит около 700 тысяч долларов в день. Поскольку эти деньги нужно откуда-то брать, корпоративная подписка и доступ разработчиков, стоят заметные деньги и доступны ограниченному кругу пользователей. 

Небольшие языковые модели намного дешевле — на момент запуска, Phi–3, например, бесплатен как для академического, так и для коммерческого использования.

Малые модели легче использовать

Не каждая книга должна быть энциклопедией. Помощь в приготовление салата не требует бесперебойного доступа к многообразию человеческих знаний, достаточно лишь краткого списка ингредиентов и инструкции. Универсальный интеллект отлично подходит для пиара и дружеских (или романтических) отношений. Для желающих использовать ИИ в качестве инструмента или для создания новых товаров и услуг, небольшие модели будут очевидным выбором — для того, чтобы приятно позавтракать, не обязательно покупать ресторан.

Малые модели легче обучать

Небольшие модели, созданные для решения конкретных задач, намного проще обучить на отобранных отраслевых данных, которые априори: 

  • Релевантны и качественны (с отслеживаемыми источниками)
  • Обозримы (в ограниченном массиве обучающих данных гораздо легче найти ошибки)
  • Законны (фокус позволяет заключать лицензионные соглашение с ограниченным кругом надежных источников или создавать высококачественный синтетический материал самостоятельно)
Малые модели могут быть более приватными

Если модели не требуются огромные сервера, компании могут размещать их в локальной сети и обучать на наиболее конфиденциальных данных, не беспокоясь о том, где эти файлы будут хранится и у кого к ним будет доступ. Для большинства из нас это большого значения не имеет, но для тех, кому требуется абсолютная конфиденциальность, небольшие модели представляют очень простое решение.

Малые модели могут работать на мобильных устройствах

Phi-3 занимает менее 2 гигабайт — примерно столько, сколько фильм неплохого качества — ее можно загрузить на мобильный телефон или даже в умные очки, что открывает совершенно новые возможности. Отсутствие необходимости подключаться к серверу каждый раз, когда пользователь задает вопрос, сделает ИИ по-настоящему мобильным — щадящим батарейку и доступным вне зоны мобильного покрытия. Любой, кто пробовал использовать Google Translate за границей в метро или магазине с толстыми стенами, подтвердит — искусственный интеллект стоило бы изобрести только ради этого.