Сбер открыл доступ к модели генерации текста для русского языка ruGPT-3.5 и расширенной версии нейросети mGPT, способной генерировать тексты на 61 языке

Сбер открыл доступ к нейросетевой модели генерации текста для русского языка ruGPT-3.5 13B. Ее дообученная версия лежит в основе сервиса GigaChat. Также банк выложил новую версию модели mGPT 13B - самую большую из семейства многоязычных моделей Сбера, способную генерировать тексты на 61 языке. Обе модели доступны на HuggingFace, и их могут использовать все разработчики. Об этом сообщает пресс-служба Сбера.

Внутри GigaChat находится целый ансамбль моделей - NeONKA (NEural Omnimodal Network with Knowledge-Awareness). Для его создания нужно было выбрать базовую языковую модель, которую потом можно было обучать на инструктивных данных. Russian Generative Pretrained Transformer версии 3.5 с 13 млрд параметров (ruGPT-3.5 13B) - новая версия нейросети ruGPT-3 13B.

Это современная модель генерации текста для русского языка на основе доработанной исследователями Сбера архитектуры GPT-3 от OpenAI. Модель ruGPT-3.5 13B содержит 13 миллиардов параметров и умеет продолжать тексты на русском и английском языках, а также на языках программирования. Длина контекста модели составляет 2048 токенов. Она обучена на текстовом корпусе размером около 1 Тб, в который, помимо уже использованной для обучения ruGPT-3 большой коллекции текстовых данных из открытых источников, вошли, например, часть открытого сета с кодом The Stack от коллаборации исследователей BigCode и корпусы новостных текстов. Финальный чекпоинт модели - это базовый претрейн для дальнейших экспериментов.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub. В обучении модели участвовали команды SberDevices и Sber AI при поддержке Института искусственного интеллекта AIRI.

Также в открытом доступе опубликована многоязычная модель mGPT 13B под открытой лицензией MIT. Версия mGPT 13B содержит 13 млрд параметров и способна продолжать тексты на 61 языке, включая языки стран СНГ и малых народов России. Длина контекста модели составляет 512 токенов. Она была обучена на 600 Гб текстов на разных языках, собранных из очищенных и подготовленных датасетов multilingual C4 и других открытых источников.

Модель может использоваться для генерации текста, решения различных задач в области обработки естественного языка на одном из поддерживаемых языков путем дообучения или в составе ансамблей моделей.

Модель также доступна на российской платформе ML Space в хабе предобученных моделей и датасетов DataHub.

"Сбер как ведущая технологическая компания выступает за открытость технологий и обмен опытом с профессиональным сообществом, ведь любые разработки и исследования имеют ограниченный потенциал в замкнутой среде. Поэтому мы уверены, что публикация обученных моделей подстегнет работу российских исследователей и разработчиков, нуждающихся в сверхмощных языковых моделях, создавать на их базе собственные технологические продукты и решения. Пробуйте, экспериментируйте и обязательно делитесь полученными результатами", - рассказал Андрей Белевцев, старший вице-президент, CTO, руководитель блока "Технологии" Сбербанка.

Последние комментарии

Олег Васильев 23 мая 2025 05:37 Станислав Кузнецов: "Без глобального сотрудничества победить киберпреступность невозможно"

Радует, что Сбер не просто констатирует угрозы, а показывает конкретную работу с AI в антифроде

Михаил Назаров 20 мая 2025 10:01 Сбер внедрил функцию AI-дизайна карт в мобильное приложение "СберБанк Онлайн"

Сбер молодцы, не всем нужна кастомная карта, но кому-то приятно держать в руках не безликий пластик, а что-то своё

Сергей Устюгов 25 сентября 2024 11:11 Клиенты Сбера могут оплачивать улыбкой покупки в модном сегменте

Это не только повышает скорость обслуживания, но и делает его удобным и современным. Оплата по улыбке ускоряет процесс, позволяя клиентам без лишних действий завершить покупку.

Максим Гусев 09 сентября 2024 09:36 Специалисты рассказали, как телефонные мошенники запугивают своих жертв

Такие схемы опасны, так как жертвы находятся под сильным психологическим давлением и перестают доверять своим близким. Это напоминает нам о важности быть бдительными и не бояться делиться с близкими подозрительными ситуациями.

Максим Гусев 06 сентября 2024 10:04 Сбер представит технологические сервисы на ВЭФ-2024

Снижение цен на новостройки делает их более привлекательными, особенно с учетом цифровизации сделок и программы семейной ипотеки. Надеюсь, что такие меры действительно сделают жилье более доступным для широкого круга граждан.

Фото на сайте

Все фотогалереи

Новости раздела

Все новости
Архив
Пн Вт Ср Чт Пт Сб Вс
26 27 28 29 30 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31 1 2 3 4 5 6