Rugpt-3 как пользоваться: Русскоязычная модель GPT-3 выложена в открытый доступ Журнал «Я Robot»

Rugpt-3 как пользоваться

Для обучения гигантских трансформерных моделей нужны значительные вычислительные ресурсы. Не получится просто взять современную видеокарту и обучить такую модель на домашнем компьютере. Если же взять самый большой вариант модели со 175 млрд параметров, то результата придётся дожидаться почти 500 лет. Понятно, что подобные эксперименты доступны только компаниям, обладающим значительными вычислительными ресурсами. Именно для решения подобных задач в 2019 году Сбер ввёл в эксплуатацию суперкомпьютер «Кристофари».

Результат, который будет получен с помощью применения модели, не может быть предсказан заранее. Чтобы работать с данным xl вариантом необходимо сначала установить расширения для оптимизации смешанного и распределенного обучения в Pytorch – Apex, плюс язык для работы с ядрами – Triton и библиотеку для расширенного использования языковых моделей Deepspeed. В качестве основы для первых экспериментов были выбраны архитектуры GPT-3 Medium (350 миллионов параметров) и GPT-3 Large (760 миллионов параметров). При этом обучались модели как с чередованием блоков трансформера с разреженным [sparse] и полным [dense] механизмами внимания, так и модели, в которых все блоки внимания были полными. Дело в том, что в оригинальной работе от OpenAI говорится о чередовании блоков, но не приводится их конкретная последовательность. Если все блоки внимания в модели будут полными, это увеличивает вычислительные затраты на обучение, но гарантирует, что предсказательный потенциал модели будет использован в полной мере.

Подробнее о ruGPT-3

Быстрое развитие сетей, основанных на трансформерах, привело к появлению гигантских языковых моделей, подобных Generative Pre-trained Transformer 3 (GPT-3) от OpenAI, способных эффективно решать множество задач из области NLP. В настоящее время в научном сообществе ведётся активное изучение различных моделей внимания, предназначенных для снижения вычислительных затрат при обучении моделей и увеличения точности. При этом модели, составленные из одних только dense-блоков, являются своеобразным бенчмарком, позволяющим оценить степень снижения точности различных «ускоренных» вариантов модели. В октябре этого же года команды из SberDevices на основе статьи от OpenAI и кода модели GPT2 смогли разработать русскоязычный аналог под название ruGPT-3 в 5 вариациях от 125 млн. Признаков, используя мощности суперкомпьютера «Кристофари», а самое главное, что в данном случае код действительно открытый, за исключением модели на 13 млрд. GPT-3 — нейронная сеть, наделавшая шума в 2020 году, как самая сложная, объёмная и многообещающая модель по работе с текстовыми данными.

Со стороны SberDevices лидерскую роль в этом процессе взяло на себя Управление экспериментальных систем машинного обучения, а со стороны Sberbank.AI — команда AGI NLP. В проект также активно включились коллеги из SberCloud, занимающиеся сопровождением «Кристофари». Названия интересующих курсов можно оформить на сайте через checkbox и передавать текст в затравку. После этого скачаем модель, дообучим и сохраним модель с тонкой настройкой (мы работали в google colab, при необходимости нужно будет установить и другие зависимости).

В качестве результата сравнения будет субъективное мнение автора о том, логично ли составлен кусок текста и лучше или хуже он чем тот, что есть сейчас в статьях. Стиль 3 следует использовать для генерации более непринуждённых бесед, рассказов, сочинений. Ряд комментаторов высказывает опасения, что неконролируемое распространение алгоритмов типа GPT-3 приведет к замусориванию интернета сгенерированными текстами.

Rugpt-3 как пользоваться

Далее уберем эту статью из обучающей выборки и сгенерируем при помощи дообученных нейронных моделей отрывки текста, которые могли бы принадлежать к началу данной статьи. Стиль 1 используется, если нужно получить точное определение, точный перевод, когда не нужно видеть других вариантов генерации. Стиль 1 следует правилу определения следующих слов, ориентируясь только на высокую вероятность их появления. Совместными усилиями нескольких подразделений Сбера русскоязычная модель GPT-3 Large с 760 миллионами параметров натренирована на корпусе текстов объемом 600 Гб. Нейросеть GPT-3, которая вышла в свет в 2020 и сразу же получила популярность.

Длина контекста модели составляет 2048 токенов + используется реализация sparse attention из DeepSpeed. Современная модель генерации текста для русского языка на основе архитектуры GPT-3 от OpenAI. Продемонстрируем еще один пример использования данной сети и создадим рекомендательную систему по кинематографическим предпочтениям. Для примера будет взят пользователь из сайта Кинопоиск и сгенерированы фильмы, которые он смотрел на основе 2-х любых просмотренных из его истории, дальше проведено банальное сравнение, есть ли эти фильмы у него также в истории. То есть, модель не будет дообучаться, а будет строить продолжение из того, что уже знает.

75 вычислительных узлов DGX-2 (в каждом по 16 карт NVidia V100), связанных сверхбыстрой шиной на базе технологии Infiniband, позволяют обучить GPT-3 Small всего за несколько часов. Однако и для такой машины задача обучения более крупных вариантов модели не является тривиальной. Процесс обучения, использующий одновременно множество вычислительных узлов в ситуации, когда веса модели не помещаются в памяти одной карты, является весьма нестандартным. При использовании данной нейросети в качестве инструмента необязательно знать структуру кода или хитросплетения слоёв нейронов, но нужно понимать некоторые гиперпараметры, необходимые для настройки, так как они будут сильно влиять на результат.

Русскоязычная модель GPT-3 выложена в открытый доступ

При использовании демо модели ruGPT-3 XL ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данного демо. Для этого пользователю необходимо сформулировать «затравку» — фразу, которую модель допишет. Сравнив данный результат с историей пользователя сервиса узнаём, что покрытие составляет 100%, это разумеется и потому что, алгоритм предлагает также и крайне популярные фильмы, но результат всё равно достаточно неплохой с учётом, что модель никак не дообучалась. По итогу, первый вариант генерации достаточно неплох, но под конец выдаёт бред про автора статьи, и демонстрирует потерю логической связи, второй вариант выглядит достаточно хорошо в качестве введения, не теряет логическую нить и более развёрнуто описывает проблему. Главное отличие оригинала от сгенерированных, это краткость изложения и погружения в инструменты работы сходу.

  • Далее уберем эту статью из обучающей выборки и сгенерируем при помощи дообученных нейронных моделей отрывки текста, которые могли бы принадлежать к началу данной статьи.
  • То есть, модель не будет дообучаться, а будет строить продолжение из того, что уже знает.
  • Расцвет этих моделей начался с публикации результатов Томаша Миколова (Tomas Mikolov), аспиранта Йошуа Бенджио (Yoshua Bengio) (одного из «отцов-основателей» современного глубокого обучения, лауреата Премии Тьюринга), и появления популярного инструмента word2vec.
  • Архитектура нейросети ruGPT-3 основывается на решении Generative Pretrained Transformer 3 от OpenAI.
  • Такой подход позволяет использовать для обучения «неразмеченные» данные, то есть обойтись без привлечения «учителя», а с другой стороны позволяет решать довольно широкий спектр задач из области NLP.

Важно понимать, что модели типа GPT-1/2/3, на самом деле, решают ровно одну задачу — они пытаются предсказать следующий токен (обычно слово или его часть) в последовательности по предшествующим. Такой подход позволяет использовать для обучения «неразмеченные» данные, то есть обойтись без привлечения «учителя», а с другой стороны позволяет решать довольно широкий спектр задач из области NLP. Ведь в тексте диалога, например, реплика-ответ является продолжением истории общения, в художественном произведении — текст каждого абзаца продолжает предшествующий текст, а в сессии вопросов и ответов текст ответа следует за текстом вопроса. Модели большой ёмкости в результате могут решать многие такие задачи без специального дообучения — им достаточно тех примеров, которые укладываются в «контекст модели», который у GPT-3 довольно внушительный — целых 2048 токенов. GPT-3 способна не только генерировать тексты (в том числе стихи, шутки и литературные пародии), но и исправлять грамматические ошибки, вести диалоги и даже писать более-менее осмысленный программный код.

Самая большая OpenAI версия GPT-3 со 175 млрд весов в 230 раз больше, чем ruGPT-3. С одной стороны, они шарят архитектуру моделей, довольно подробно всё описывают, но при этом сами веса обученных моделей либо публикуют с большой задержкой, либо не публикуют вовсе. Это приводит к тому, что воспроизвести их работу могут только крупные компании, обладающие серьёзными вычислительными ресурсами. Проект по обучению GPT-3 потребовал объединения усилий сразу нескольких подразделений.

Комментарии к тексту

Создана организацией OpenAI в нескольких вариациях, от 125 миллионов до 175 миллиардов признаков. Хотя в названии организации и есть слово “Open”, по факту модель GPT-3 является проектом проприетарного типа, то есть, с закрытым программным кодом, доступ к которому выдаётся за деньги. Создала GPT-3 компания OpenAI, разработчики выпустили несколько версий продукта и модели варьируются от 125 млрд параметров до 175 млрд параметров. Данная нейросеть является проприетарной, то есть код доступен только платно по подписке. В качестве стиля для генерации не подойдёт использование сэмплинга, ибо нужен более строгий подбор именно фильмов, в противном случае, алгоритм будет уводить в рассуждения о жизни и другие подобные темы. Модель ruGPT-3 13B содержит 13 миллиардов параметров и способна продолжать тексты на русском и английском языках, а также на языках программирования.

Rugpt-3 как пользоваться

До сих пор эта языковая модель считается самой масштабной и перспективной как инструмент работы с текстовой информацией. Получается, что ruGPT-3 XL – эффективный инструмент для создания контента, но результаты  деятельности нейросети нужно проверять. Большое значение имеет то, что нейросеть может функционировать без few-shot обучения и работать с определенными наборами информации. Чтобы начать пользоваться сетью, следует зайти на GitHub, там находится архив с документацией и сама нейросеть. Плюс есть возможность попробовать демо-версию и с ее помощью протестировать генерацию текстов. Подключите свое приложение к самой большой нейросети для русского языка ruGPT-3.

ruGPT-3 в клиентском сервисе

Модель будет рекомендовать не только внутренние курсы, но и из интернета, что на наш взгляд является плюсом. При использовании модели ruGPT-3 13B ответы формируются на автоматической основе. ООО «Облачные технологии» не несет ответственности за точность, релевантность, корректность информации, полученной пользователем посредством данного сервиса.

Проще всего отметить несколько универсальных стилей работы с данной моделью на примере задачи генерации текста. Как пишет Сергей Марков, первая революция в NLP была связана с успехами моделей, основанных на векторных представлениях семантики языка, получаемых при помощи методов обучения без учителя (Unsupervised learning). Расцвет этих моделей начался с публикации результатов Томаша Миколова (Tomas Mikolov), аспиранта Йошуа Бенджио (Yoshua Bengio) (одного из «отцов-основателей» современного глубокого обучения, лауреата Премии Тьюринга), и появления популярного инструмента word2vec. Вторая же революция началась с развития механизмов внимания в рекуррентных нейронных сетях, вылившаяся в понимание того, что механизм внимания самодостаточен и вполне может быть использован и без самой рекуррентной сети. Появившаяся в результате нейросетевая модель получила название «трансформер» [transformer]. Она была представлена научному сообществу в 2017 году в статье с программным названием «Внимание — это всё, что вам нужно» [Attention Is All You Need],  написанной группой исследователей из Google Brain и Google Research.

Продолжение текста (Generation)

Ранее в одной из статей мы писали об опыте извлечения обучающих данных из ruGPT-3. Сегодня мы расскажем, как на основе этой модели сделать не сложную рекомендательную систему по курсам для обучения. Дело в том, что в нашей организации приветствуется самообучение и даже выделено время под него. Нейросеть ruGPT-3 может генерировать разные виды контента, а также редактировать тексты, находить грамматические и пунктуационные ошибки, вести диалог с пользователем и создавать код. Получается, что эта нейросеть является прототипом для Artificial General Intelligence – общего ИИ, который сможет помогать с любыми задачами во всех спектрах деятельности. Нейросеть демонстрирует state-of-the-art возможности для русского языка и умеет продолжать любой текст.

Архитектура нейросети ruGPT-3 основывается на решении Generative Pretrained Transformer 3 от OpenAI. Архитектура нейросети ruGPT-3 основывается на решении Generative Pretrained Transformer 3 от OpenAI. Цель этой страницы – удовлетворить исследовательский интерес научного сообщества, а также предложить API ruGPT-3 разработчикам приложений, диалоговых и рекомендательных систем, текстовых классификаторов и т.д.

Вверх