Программа 2025 года: лучшие практики, инструменты и технологии
Ключевые NLP‑архитектуры: от вариаций BERT до RAG и агентных систем
Фокус на актуальные задачи: NER, QA, VQA, машинный перевод и сценарии с RAG
Пошаговое погружение в передовые LLM
4 проекта в портфолио и практика на реальных бизнес‑задачах
Удостоверение о повышении квалификации
Natural Language Processing позволяет нейросетям понимать человека
В том числе имитировать разговор, выполнять запросы, извлекать пользу из массивов естественной речи
Например, NLP используют чат‑боты, голосовые ассистенты, автопереводчики, сложные аналитические системы
Курс подойдёт тем, у кого есть опыт работы с данными, Machine Learning и Deep Learning
Специалистам в области Data Science
Разберёте методы извлечения признаков из текста и сможете применять NLP для работы с большими данными и решения бизнес-задач
DL- и ML‑инженерам
Изучите способы обработки текстовых данных и современные архитектуры и будете использовать NLP в своих реальных проектах
Разработчикам
Освоите актуальные библиотеки и инструменты, чтобы внедрить технологии NLP в разработку приложений, которые используют текстовые данные
Если у вас нет базы в DL, посмотрите курс «Инженер по глубокому обучению нейросетей»
Сначала научитесь работать на фреймоворке PyTorch, строить, обучать нейросети и подготавливать данные, а потом сможете выбрать специализацию — в том числе NLP
Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут
Введение в нейросети и их роль в решении сложных задач
Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни
Работа с текстами
Классифицируете тексты с использованием предобученной модели
Работа с изображениями
Классифицируете изображения с помощью предобученной модели
Нейросети на практике
Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач
Научитесь использовать предобученные модели для анализа текста и изображений и интерпретировать результаты их работы
1
1 проект・2 недели
Современные модели: обучение и ключевые механизмы
RoBERTa
XLM-RoBERTa
DeBERTa
NER
PyTorch Lightning
DP
DDP
FSDP
Multi-Head Attention и BERT
Разберёте трансформер на уровне тензоров, attention-механизм, позиционные эмбеддинги и skip connections. Напишете полный encoder с нуля. Изучите архитектуру BERT, задачи MLM и NSP, CLS‑токен, ограничения attention и такие решения, как flash/sparse attention.
Эволюция моделей в NLP
Сравните токенизаторы (BPE, WordPiece и другие) по стабильности и размеру словаря. Рассмотрите развитие моделей: RoBERTa, XLM‑R, DeBERTa, e5, включая мультиязычные и облегчённые версии для продакшна. Изучите NER: BIO‑разметку, entity spans, лоссы.
Эффективная тренировка моделей
Освоите float16, bfloat16, mixed precision, включите AMP в PyTorch. Изучите квантизацию (PTQ, QAT) и распределённую тренировку (DataParallel, DDP, FSDP). Разберёте torch.compile и научитесь работать с PyTorch Lightning.
Решите задачу NER, выявив все сущности, и предскажете, сколько их в тексте, через регрессию по CLS
2
1 проект・2 недели
Большие языковые модели
LoRA
QLoRa
SFT
TRL
vLLM
FlashAttention
Triton
ALiBi
RoPE
Введение в большие языковые модели
Изучите фундаментальные концепции LLM. Рассмотрите архитектуры для генерации текста: decoder‑only, encoder‑decoder, диффузионные модели. Разберёте устройство attention‑масок, их влияние на генерацию. Реализуете вызов API через OpenRouter. Исследуете ограничения LLM.
Архитектура и принципы работы LLM
Узнаете принципы обучения декодера. Реализуете цикл генерации текста с чат‑шаблонами Jinja. Рассмотрите методы улучшения генерации: In‑Context Learning, reasoning, CoT. Изучите стратегии генерации текста: beam search, sampling, параметры temperature, top‑k, top‑p, repetition penalty. Поймёте причины их выбора.
Оптимизации в LLM
Попробуете методы обучения и оптимизации LLM: LoRA, QLoRa, адаптеры, PEFT и Unsloth. Поймёте проблему длинного контекста. Освоите методы расширения контекста: KV cache, paged attention, speculative decoding, continuous batching. Проведёте оптимизацию на GPU, с использованием Triton, fused layers и FlashAttention. Примените gradient checkpointing и выберете стратегии обучения под ресурсы и скорость.
Дообучите языковую модель, чтобы управлять генерацией текстов на разных этапах — pretrain, SFT, alignment
3
1 проект・2 недели
Путь генеративного NLP: от Seq2Seq к RAG
T5
LoRA
Seq2Seq
BLEU
ROUGE
chrF
COMET
RAG
Векторные базы данных
LangChain
Архитектуры Seq2Seq в трансформерах
На примере T5 и русскоязычных аналогов разберёте архитектуру encoder-decoder. Поймёте принципы cross‑attention и teacher forcing. Изучите метрики BLEU и ROUGE. Примените T5 к разным NLP‑задачам. Освоите предобучение T5 с помощью span corruption. Рассмотрите ключевые бенчмарки.
Генерация текста для практических задач
Изучите модели машинного перевода mT5 и NLLB. Освоите их дообучение для доменов. Разберёте методы улучшения параллельных корпусов: выравнивание, фильтрацию, back‑translation и paraphrasing. Решите NER‑задачу в формате генерации с промптингом и constrained decoding. Дообучите Seq2Seq‑модель и оцените качество перевода.
Retrieval‑Augmented Generation — RAG
Узнаете причины галлюцинаций и как RAG снижает риск ошибок. Изучите bi‑cross‑encoder, гибридный поиск и векторные базы (FAISS, Chroma, Qdrant). Рассмотрите методы снижения размерности и индексации. Построите RAG‑пайплайн: от подготовки документов до генерации ответа. Освоите LangChain и оценку качества поиска.
Разработаете retrieval‑систему по статьям из arXiv, с поиском по документам и генерацией ответов на естественном языке
4
1 проект・2 недели
Современный NLP: поиск, агенты и мультимодальность
rapidfuzz
OpenSearch
datasketch
LangChain
AutoGen
smolagents
MCP
CLIP
SigLIP
BLIP
LLaVA
Florence
Полнотекстовый поиск
Рассмотрите нечёткий поиск и алгоритм Левенштейна. Освоите rapidfuzz и BM25. Поработаете с индексами в OpenSearch. Разберёте расширенные техники поиска. Изучите LSH с datasketch. Сравните подходы через хэши и эмбеддинги. Реализуете пайплайны поиска с опечатками, а также индексацию и дедупликацию коллекций.
Агенты
Изучите function calling, structured output, а также интеграцию функций через LangChain. Разберёте агентные системы: ReAct, LLM‑as‑judge и современные фреймворки (AutoGen, smolagents), а также протокол MCP. Создадите агентов для работы с интернетом и веб-страницами. Рассмотрите архитектуры Perplexity и Deep Research.
Мультимодальные архитектуры
Узнаете, как создаются мультимодальные датасеты и бенчмарки. Разберёте CLIP и его варианты (SigLIP, ViT-L/14), а также модели BLIP, Florence и LLaVA для VQA. Научитесь выявлять ошибки аннотаций с помощью CLIP и применять его для поиска, очистки датасетов и VQA‑задач.
Разработаете модель, которая будет искать изображения по описанию, проверять их на релевантность и отвечать на вопросы по содержанию
Получите удостоверение о повышении квалификации
Это официальный документ установленного образца, который принимают работодатели. Образовательная лицензия № Л035‑01298‑77/00185314 от 24 марта 2015 года.
Как устроен курс
Наглядная теория на интерактивной платформе
Материалы подготовлены на основе реальных задач, с которыми работают инженеры по обучению нейросетей. Можно заниматься в своём темпе и совмещать с работой.
Очень много практики
За курс сделаете 4 проекта — закрепите новые навыки и пополните портфолио. Работы важно сдавать в срок, чтобы получить подробную обратную связь от опытных инженеров.
Воркшопы с экспертами по расписанию
На них опытные наставники разберут кейсы из различных индустрий и продемонстрируют, как технологии и навыки из курса можно применять для ваших проектов.
YandexGPT помогает учиться
Когда в теории что-то непонятно, нейросеть объяснит это другими словами. А в конце каждого урока подготовит краткий пересказ о самом главном.
Будете заниматься сами, но не в одиночестве — вас поддержат эксперты и команда Практикума
Авторы — инженеры с большим опытом обучения нейросетей
Они собрали и систематизировали свои знания, чтобы вы учились на реальных кейсах, с которыми сталкиваются специалисты на практике
Антон Моргунов
Программный эксперт курса. Senior ML‑инженер в Базис Центре.
Даниил Вяжев
Исследователь в Научно-учебной лаборатории моделей и методов вычислительной прагматики в ВШЭ. Мидл DL/ML-инженер в НБКИ. PhD Student в Сколтехе.
Кирилл Бобылев
Senior Data Sсientiest в Ozon Tech. Специализируется в Moderation, Anti‑fraud, QC.
Станислав Жбанников
NLP‑инженер в GigaChat Pretrain. Занимается оптимизацией обучения крупных MoE‑моделей. Был Lead Data Scientist в Ecom.tech, руководил DS‑командой разработки умного ассистента для поиска товаров.
Освоите детекцию объектов, генерацию изображений и работу с видеопотоком — и сможете создавать модели для анализа и интерпретации визуальной информации
Можно вернуть 13% от стоимости курса — поможем оформить нужные документы.
Отвечаем на вопросы
Каким требованиям нужно соответствовать?
Программа рассчитана на специалистов, у которых уже есть опыт работы с нейросетями.
Для успешного обучения на курсе нужны:
Навыки программирования на Python, включая знание ООП.
Опыт в анализе данных, их визуализации и манипулировании ими.
Базовые знания по математике: о функциях, их формульном представлении и дифференцировании.
Базовые знания в линейной алгебре: о матрицах, их свойствах и типовых операциях с ними, таких как сложение, умножение, транспонирование.
Базовое понимание архитектур нейросетей, например Transformer.
Представление о работе с DL‑фреймворками, например PyTorch.
Кто будет меня учить?
Все наставники — практикующие специалисты: сотрудники Яндекса и других крупных компаний. Программу составляют опытные преподаватели и методисты, а ещё действующие специалисты Яндекса, Школы анализа данных и других лидеров технологической и образовательной индустрий.
Что делать, если я не справлюсь с нагрузкой?
Если случилось непредвиденное или понадобилось уделить больше времени закреплению материала, напишите своему куратору. Он поможет перенести дедлайн сдачи проекта или перевестись в более поздний поток. На общую стоимость курса это не повлияет.
Если не понравится, я могу вернуть деньги?
Конечно. Если поток ещё не стартовал, вернём всю сумму. Если учёба уже началась, придётся оплатить прошедшие дни со старта вашего первого потока — но мы вернём деньги за остаток курса. Более подробно рассказываем об этом в 7 пункте оферты.
Получу ли я какой-то документ после курса?
Да, для этого нужно закончить курс и выполнить все 4 проекта.
Тогда вы получите удостоверение о повышении квалификации, если у вас есть среднее профессиональное или высшее образование. Если нет, отправим вам сертификат о прохождении курса в электронном виде.
А если не получится пройти курс целиком и выполнить все 4 проекта, по запросу выдадим вам электронную справку об обучении — с перечнем модулей, которые вы освоили.
Вы поможете сменить или найти работу?
На этом курсе не предусмотрена помощь с трудоустройством, поскольку он для действующих специалистов, у которых уже есть навыки поиска работы.
Но если у вас появится вопрос о карьерном развитии, обратитесь в нашу службу поддержки — постараемся ответить.
Как можно оплатить?
Банковской картой: внести всю сумму сразу или платить ежемесячно.
Ежемесячные платежи работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Обучение будет стоить меньше, если оплатить весь курс сразу.
Через компанию, если она налоговый резидент РФ. Условия для юридических лиц и ИП отличаются — чтобы узнать подробнее, оставьте заявку или уточните у вашего менеджера.
Что такое налоговый вычет на обучение и как его получить?
Налоговый вычет может получить тот, кто работает по трудовому договору и является налоговым резидентом Российской Федерации, то есть 183 дня в году находится на территории страны.