Тренды • 29 августа 2023 • 5 мин чтения

Chat GPT по-русски: на что способна нейронка от Яндекса

YandexGPT за несколько месяцев научилась отвечать на вопросы, сочинять стихи и говорить голосом Алисы. Рассказываем, как использовать её для разных задач.

Что такое YandexGPT

YandexGPT — модель искусственного интеллекта, которая генерирует текст на основе запроса человека. Для пользователя это выглядит как диалог с другом в мессенджере.

Модель можно использовать, чтобы создавать контент в маркетинге, рекламе и журналистике или для личных задач. Например, придумать сказку, рецепт блюда или текст письма. Весной 2023 YandexGPT добавили в Алису. Так Яндекс стал первой компанией, которая применила подобную модель в голосовом помощнике.

Попросили бота рассказать о нейросети, и вот что он ответил

YandexGPT называется так, потому что работает по аналогии с языковой моделью GPT компании Open AI. Её используют в ChatGPT — чат-боте для генерации текста и кода, который запустили в открытый доступ в декабре 2022 года. За первые два месяца работы ботом воспользовались 100 млн человек.

Чтобы YandexGPT мог поддерживать диалог с человеком, его обучали в два этапа:

1. Pretraining
На этом этапе формируется эрудиция модели. Она изучает структуру языка и факты о том, как устроен мир, на датасетах. Это массивы данных, которые собирают разработчики. Если брать все данные подряд, модель выучит в том числе и неверные факты и будет отвечать неправильно. Поэтому данные для датасета сначала собирают из открытых источников, а затем фильтруют, чтобы осталось как можно больше полезных.

2. Fine-tuning
На этом этапе YandexGPT обучали на датасете из сотен тысяч запросов (инстрактов) и ответов на них. Чтобы в набор данных попало как можно больше разнообразных инстрактов, разработчики проанализировали запросы в поиске, обращения к Алисе и собрали примеры запросов коллег внутри компании. Написать качественные ответы на такие запросы — ещё сложнее. Человеку нужно быть либо экспертом в теме, либо уметь быстро в ней разобраться. Затем важно проверить достоверность информации и грамотно сформулировать мысль. Эти навыки есть у AI-тренеров — специалистов с редакторским опытом, которые помогают готовить ответы на запросы для нейросети. AI-тренеры, сотрудники Яндекса и удалённые асессоры (проводят фактчекинг, оценивают и составляют тексты) составили несколько сотен тысяч ответов на инстракты. Около половины из них стали основой для датасета, на котором обучалась YandexGPT.

Если просто показывать модели примеры хорошего поведения, она будет пробовать его воспроизводить, но всё равно может ошибаться. ChatGPT часто фантазирует вместо того, чтобы честно отвечать, что чего-то не знает. Улучшать ответы в моделях GPT получается с помощью человека. Он указывает, какие ответы хороши, а какие — с фактическими ошибками или неуклюже сформулированы. Такая модель обучения называется обучением с подкреплением на основе отзывов (Reinforcement learning from Human Feedback). В следующих версиях YaGPT планируют добавить этот этап в обучение модели.

Использовать чат-боты с языковыми моделями GPT можно в любом направлении — от аналитики до дизайна и маркетинга. Например, попросить сгенерировать запрос, по которому нейросеть нарисует иллюстрацию для рекламной кампании, или придумать описание для карточки товара. Во многих IT-профессиях широко используют современные нейросети для решения рабочих задач.

Что умеет чат-бот YandexGPT

На момент написания статьи (в августе 2023) у модели такие достижения:

Помогает генерировать текст. Это может быть ответ на вопрос или текст, который содержит не факты, а эмоциональные оценки. Например, нужно кого-то похвалить или написать поздравление. Модель ещё учится, поэтому для подходящего варианта может потребоваться несколько генераций ответа.
Помогает написать простой код. Например, HTML страницы.
Понимает контекст. YandexGPT в Алисе запоминает, о чём её спрашивали, поэтому отвечает на уточняющие вопросы. Например, можно попросить добавить цифр или рассказать подробнее.
Кратко пересказывает статьи. Большую статью нейросеть превращает в список тезисов. Удобно, когда нужно побыстрее разобраться в материале и выбрать ценные источники.
Помогает делать посты в «Шедевруме» — приложении Яндекса, где генерируют картинки по текстовым описаниям. YandexGPT создаёт там тексты для постов — рассказы, шутки стихи. Нейросети подбирают к ним заголовки и картинки, которые сгенерировали пользователи «Шедеврума».
Создаёт карточки товаров. Нейросеть помогает продавцам готовить описания для товаров на Маркете. В карточку нужно добавить как можно больше данных и нажать «Создать с YaGPT». Нейросеть проанализирует их и сгенерирует продающий текст.
Форматирует текст. YandexGPT оформляет ответ, если попросить. Например, выделяет цитаты, программный код или заголовки.
Выделяет главное из отзывов на товары и обобщает информацию из них в коротком списке преимуществ и недостатков. Функция работает в поиске Яндекса и на Маркете.

Как пользоваться нейросетью YaGPT в браузере и в Алисе

В Яндекс Браузере нужно нажать на фиолетовый значок Алисы и произнести или напечатать в окне диалога «Давай придумаем». Помощник активирует навык и с этого момента будет генерировать ответы с помощью YaGPT.
Алиса сразу предупреждает о том, что модель молодая и может ошибаться, затем предлагает пример первого запроса — об изучении английского
Если нужно быстро понять смысл статьи, поможет встроенная в браузер функция — пересказать кратко. В поисковой строке появился одноимённый значок. Если на него нажать, робот выдаст тезисный пересказ материала на русском.
Функция краткого пересказа работает только в Яндекс Браузере и только для статей на русском

Другой способ прочитать краткий пересказ статьи — добавить ссылку на материал на сайт 300ya.ru

Чтобы активировать функцию в колонках с Алисой, достаточно произнести «Алиса, давай придумаем». Голосовой помощник сообщит, что навык активирован, и можно задавать вопросы и просить что-то придумать.
Алиса использует YaGPT, чтобы рассказать о здоровом образе жизни

Преимущества YaGPT

Бесплатна и доступна в России «без регистрации и СМС». ChatGPT не работает в России. Чтобы им пользоваться, придётся оформлять виртуальный номер другой страны и с помощью него регистрироваться в сервисе или использовать ботов-посредников. YaGPT живёт в браузере Яндекса и гаджетах с Алисой. Достаточно сказать или написать «Алиса, давай придумаем»— и можно общаться с ИИ.

Свежие данные. Нейросеть обучали на данных, которые включают и 2023 год. Например, она знает, кто получил «Оскар» в феврале 2023 года.

Нейросеть немного путает номинантов в конкретном году с годом выхода фильмов, но название победителя и список фильмов верные

Помогает экономить время, когда нужно много прочитать. Суть материала в 20—30 тыс. знаков можно понять меньше чем за минуту, если использовать функцию краткого пересказа.

Голосовой интерфейс. Многие уже привыкли, что можно поболтать с Алисой. Такой формат общения придаёт ещё больше человечности диалогу с искусственным интеллектом. Например, детям гораздо интереснее придумать с ней сказку голосом, чем просить об этом в чате.

Недостатки YaGPT

Современная версия модели — только первый шаг в её развитии. Чтобы вырастить её до уровня ChatGPT, нужно время и много тренировок — как спортсмену, который хочет выиграть соревнования. Важно дать нейросети не только массу фактов, но также инструкции, как превращать эти факты в сложные логические рассуждения. Чем лучше будут эти инструкции, тем лучше модель будет делать выводы и придумывать и тем меньше фантазировать.

Обучение нейросети может дать непредсказуемые результаты. Например, разработчики специально не учили YandexGPT сочинять стихотворения, но в какой-то момент оказалось, что она может их придумать. Это не минус, а скорее особенность любой нейросети, в которой происходят миллиарды преобразований. С таким количеством процессов проследить, почему модель ведёт себя так, а не иначе, в большинстве случаев невозможно.

Для обучения нейросети нужно больше экспертов в конкретных нишах. Например, AI-тренеры-физики смогут передать ей специальные знания, в которых неподготовленный тренер быстро разобраться не сможет. Чтобы найти и обучить этих людей работать с ИИ, потребуется время.

Общается только на русском. С одной стороны, это минус. Например, не получится сделать пересказ иностранной статьи. С другой стороны, модель учат разбираться в тонкостях русского языка. У ChatGPT такого фокуса нет — он делает ставку на качество ответов на английском.

Примеры использования нейросети Яндекса

В основе диалога с нейросетью — те же принципы, что и в общении людей. Чем более детальный запрос, тем лучше будет результат. Разберём несколько задач, в которых поможет YaGPT:

1. Написать план или чек-лист. Можно написать чек-лист, а затем попросить нейросеть предложить свою версию. Так можно выявить пункты, которые не получилось учесть в первой версии.

2. Побороть страх перед чистым листом. Начинать с какой-то основы проще, чем с нуля. Например, чтобы начать писать статью, можно попросить нейросеть написать план, предложить заголовок, добавить тезисов. Даже ошибки в ответе будут поводом погрузиться в тему и найти фактически верную информацию.

С первого раза добиться ответа по ТЗ не получилось. Пришлось повторять часть запроса. Но модель уловила контекст и дополнила предыдущий ответ

3. Помочь школьникам и студентам. Например, объяснить сложный термин простым языком, если в учебнике написано длинно и запутанно. Пересказать книгу или научную статью.
4. Улучшить текст или изменить стилистику. Допустим, нужно научный текст переписать так, чтобы он был понятен аудитории без академического образования. Прозу в стихи YaGPT тоже пробует перевести, хоть и не всегда получается зарифмовать все строки.

Написать стихотворение в стиле Маяковского получилось неплохо, а вот вместо поэтов Серебряного века получилась скорее японская поэзия

Что ждёт языковые модели

Главный вопрос, который волнует учёных и всех, кому интересны большие языковые модели, — смогут ли эти модели дорасти до уровня общего искусственного интеллекта. Это интеллект, который в разы превосходит человеческий. Встретить его пока можно только в фантастических фильмах и книгах.

На этом пути есть две проблемы:

Языковые модели много знают о мире, но не умеют использовать эти знания, чтобы анализировать факты, критически мыслить и принимать решения. Человек пока выигрывает не только логическим мышлением, но и жизненным опытом, который может использовать для решения проблемы. Чтобы научить такому большую языковую модель, инженерам, которые работают с ИИ, нужно придумать способ оцифровки практических знаний в разных отраслях. Затем эти данные нужно будет собрать в датасеты и обучить на них ИИ. Получатся модели, каждая из которых будет разбираться в каком-то одном направлении и помогать большой языковой модели принимать решения.

Интернет стал заполняться контентом, сгенерированным ИИ. Некоторые эксперты говорят, что это может привести к коллапсу модели. В такой ситуации ИИ обучается на сгенерированных данных и от этого ещё сильнее начинает ошибаться. В проекты по развитию искусственного интеллекта вкладывают десятки миллиардов долларов. Чтобы сохранять чистоту данных для обучения, придётся вкладывать ещё больше.

Языковые модели только начали развиваться. Пока рано делать выводы, наступит для них «технологическая зима» или новый скачок в развитии. Но если человечество всё же доведёт их до уровня общего искусственного интеллекта, по масштабу это будет сопоставимо с изобретением электричества или опасного оружия.

Статью подготовили:
Яндекс Практикум
Редактор
Полина Овчинникова
Яндекс Практикум
Иллюстратор

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться

Успейте начать учебу в Практикуме до конца ноября со скидкой 20%

Wed Sep 04 2024 11:16:26 GMT+0300 (Moscow Standard Time)