Ближайший старт — 27 августа, 24 сентября и 29 октября
AI
Освоите ИИ
для работы
и жизни
32 000
профессионалов
уже повысили
свой уровень
86%
студентов используют знания в работе
Полный стек обработки аудиоданных
Обучение и дообучение речевых моделей
Практика на виртуальных машинах с GPU
Классические модели распознавания речи: CNN, RNN, CTC
Современные речевые модели: wav2vec, HuBERT, Whisper
Технологии синтеза речи: FastSpeech, HiFi‑GAN
Аудиоанализ и модели речи позволяют нейросетям понимать и создавать звуки
Как это работает
ИИ умеет слушать и распознавать речь, различать звуки и создавать естественное звучание. Эти технологии используются в голосовых ассистентах, расшифровке речи, аудиомониторинге и озвучке контента.
Это курс для специалистов с опытом работы в машинном обучении
Для ML-инженеров
Освоите работу с аудиоданными и речевыми моделями. Разберётесь в спектрограммах, аудиопризнаках и архитектурах для распознавания речи, научитесь применять современные модели для задач аудиоанализа.
Для DL-инженеров
Изучите современные архитектуры для распознавания и синтеза речи, разберётесь в аудиотрансформерах и сможете строить полноценные аудиосервисы — от обработки сигнала до оптимизированного инференса.
Для NLP-специалистов
Расширите экспертизу в сторону речевых технологий. Поймёте, как работают системы распознавания и синтеза речи и как интегрировать голосовые интерфейсы и речевые модели с языковыми моделями.
Через 3 месяца вы сможете
Разрабатывать голосовые сервисы — от распознавания до синтеза речи
Дообучать модели под конкретные задачи и данные
Интегрировать аудиомодели в голосовые системы
Работать с аудиосигналом, извлекать признаки и строить спектрограммы
Создавать модели аудиоклассификации на основе CNN и RNN
Разрабатывать системы распознавания речи на основе CTC
Применять современные речевые модели: wav2vec, HuBERT, Whisper
Проектировать системы синтеза речи на основе FastSpeech и HiFi-GAN
Оптимизировать аудиомодели для быстрого инференса
Навыки, которые вы освоите на курсе
PyTorch
Whisper
CNN
RNN
wav2vec
HuBERT
CTC
Seq2Seq
ASR
TTS
Librosa
TorchAudio
MelSpectrogram
HiFi-GAN
ONNX
Регулярно обновляем программу, чтобы вы проходили только актуальное
Курс рассчитан на 3 месяца, нагрузка — 10 часов в неделю
2 часа
Бесплатно
Нейросетевые решения на практике
PyTorch
CV
NLP
Speech
Знакомство с курсом
Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут
Введение в нейросети и их роль в решении сложных задач
Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни
Работа с текстами
Освоите механизмы архитектуры Transformer, сделаете предобработку и построите решение для анализа сентимента
Работа с изображениями
Разберётесь с базовой задачей классификации изображений и построите пайплайн обучения
Нейросети на практике
Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач
Попробуете применять предобученные модели для анализа текста и изображений. Узнаете, как интерпретировать результаты
1
1 проект・2 недели
Цифровая обработка аудио и классические модели классификации
Познакомитесь с устройством аудиосигнала, извлечением признаков (STFT, мел-спектрограммы, MFCC), подготовкой аудиодатасетов и построением классических моделей аудиоклассификации (CNN, RNN и CRNN).
Librosa
TorchAudio
MelSpectrogram
MFCC
PyTorch
CNN
RNN
CRNN
Аудиосигнал как числовое представление
Что такое дискретизация и амплитуда
Частотные признаки
Как получить STFT, мел‑спектрограммы и MFCC
Подготовка аудиодатасетов
Нормализация, выравнивание длины, шумы и фоновые эффекты
Классические модели
CNN, RNN и CRNN для аудиоклассификации
Создадите конвейер обработки аудио: преобразуете звук в спектрограммы и построите аудиоклассификатор. Проведёте эксперименты и сравните архитектуры между собой
2
2 недели
Распознавание речи: классические СТС и трансформерные модели
Освоите базовые и трансформерные архитектуры распознавания речи — от подготовки данных и CTC-моделей до Seq2Seq‑подходов и современных encoder-decoder‑систем. Сможете обучать модели, выполнять декодирование и оценивать качество распознавания.
CTC
Seq2Seq
ASR
Transformers
Whisper
Подготовка данных для ASR
Познакомитесь с сегментацией аудио, нормализацией сигнала, токенизацией текста, выбором единиц распознавания и формированием обучающих пар звук‑текст
CTC-модели и выравнивание последовательностей
Изучите принцип обучения без временной разметки, роль blank‑токена, механизм сопоставления аудио и текстовой последовательности
Seq2Seq и трансформеры в ASR
Рассмотрите архитектуры энкодер-декодер, механизм внимания и различия между авторегрессионными и неавторегрессионными моделями
Декодирование и языковые модели
Изучите жадное декодирование и beam search, разберёте влияние внешней языковой модели на итоговый текст и сможете оценивать качество распознавания с помощью метрик WER и CER
Начнёте разработку системы распознавания речи: подготовите датасет, реализуете и обучите базовую модель, настроите декодирование и оцените качество по метрикам WER и CER
3
1 проект・2 недели
SSL и большие речевые модели
Освоите современные подходы к обучению речевых моделей без разметки и разберётесь, как устроены foundation-модели и Speech LLM. Сможете дообучать self-supervised‑модели и сравнивать их качество с классическими архитектурами.
SSL
wav2vec 2.0
HuBERT
Speech LLM
Foundation Models
Fine-tuning
Self-Supervised Learning в речи
Будете предобучать модели на неразмеченном аудио и дообучать их на задаче распознавания, рассмотрите принципы работы wav2vec и HuBERT
Архитектура wav2vec и HuBERT
Познакомитесь с контрастивным обучением, masked prediction, дискретизацией представлений и поймёте, чем это отличается от обучения с нуля
Fine-tuning и перенос на новые домены
Узнаете, как дообучать модели на размеченных данных, влиять на объёмы корпуса и адаптацию к новым задачам
Speech LLM и Audio Conditioned Models
Объедините речевой энкодер и языковую модель, обучите её на инструкциях, познакомитесь с мультимодальными архитектурами и диалоговыми системами на основе речи
Дообучите самообучающуюся модель, сравните качество с базовой архитектурой, проанализируете различия и подготовите итоговый ASR-скрипт, принимающий аудио и возвращающий текст
4
1 проект・2 недели
Синтез речи и управление характеристиками голоса
Изучите современные архитектуры синтеза речи и поймёте, как формируются тембр, интонация и стиль голоса. Сможете управлять характеристиками речи и разберётесь, как работают системы voice cloning и какие риски связаны с deepfake-аудио.
TTS
FastSpeech
HiFi-GAN
Vocoder
Deepfake
Speaker embedding
Zero-shot TTS
Архитектура TTS‑системы
Создадите полный конвейер от текста к аудиосигналу, научитесь преобразовывать текст в фонемы, предсказывать спектрограммы и генерировать звук
Предсказание спектрограммы в FastSpeech
Изучите неавторегрессионный синтез, моделирование длительности фонем и формирование акустического представления речи
Нейросетевые вокодеры и HiFi-GAN
Преобразуете спектрограммы в аудиосигнал и изучите принципы работы современных вокодеров
Управление голосом и стилем
Используете speaker embeddings, поработаете с многоспикерными моделями, контролем темпа, высоты голоса и тембра
Voice cloning и deepfake-аудио
Узнаете, что такое zero‑shot‑ и few‑shot‑ клонирование голоса, разберёте ограничения технологии, риски использования и методы детекции синтетической речи
Создадите систему синтеза речи с управлением параметрами голоса и оцените качество полученного аудио
5
2 недели
Инференс и оптимизация аудиомоделей
Научитесь собирать модели в рабочий инференс-контур, оптимизировать скорость их работы и объединять распознавание и синтез в единую цепочку.
ONNX
FP16
Inference pipeline
Model optimization
Экспорт модели в компактный формат
Преобразуете модели в ONNX и подготовите к оптимизированному запуску
Ускорение работы модели на видеокарте
Примените оптимизированную точность
Сборка инференс‑контура ASR и TTS
Объединение шагов обработки
Тестирование и валидация готового контура
Используете speaker embeddings, поработаете с многоспикерными моделями, контролем темпа, высоты голоса и тембра
1 неделя
Итоговый проект: разработка интеллектуального голосового сервиса
В рамках итоговой работы вы создадите полноценную систему обработки речи, объединяющую распознавание, языковую обработку и синтез ответа. Проект включает сборку единого инференс-контура, оптимизацию модели и демонстрацию работы сервиса в формате прототипа.
Получите удостоверение о повышении квалификации
Это официальный документ установленного образца, который принимают работодатели. Образовательная лицензия № Л035‑01298‑77/00185314 от 24 марта 2015 года.
Как устроен курс
Только необходимая теория — на интерактивной платформе
Будете осваивать всё самое необходимое с помощью текстовых материалов, заданий и квизов. Можно заниматься во сколько и где удобно, даже с телефона.
Очень много практики
За курс сделаете 4 проекта — закрепите новые навыки и пополните портфолио. Работы важно сдавать в срок, чтобы получить подробную обратную связь от опытных инженеров.
На готовой инфраструктуре в облаке
У вас будет S3‑хранилище, прерываемая виртуальная машина с GPU, которая запускается по клику.
Практикум ИИ помогает учиться
Когда в теории что‑то непонятно, нейросеть ответит на вопросы или объяснит материал другими словами. А в конце каждого урока подготовит краткий пересказ о самом главном.
Будете учиться у ML-инженеров из крупных компаний: занимаетесь сами, но мы всегда рядом
Авторы собрали весь свой опыт в одной программе
ML-инженеры собрали и систематизировали свои знания, чтобы передать вам самое необходимое
Антон Моргунов
Программный эксперт курса. Senior инженер по компьютерному зрению в IT‑компании.
Александр Иванов
ML-инженер в Сбере. Занимается разработкой генеративного ИИ в аудиодомене. Ранее был ML-инженером в Huawei. Специализируется на нейросетевых речевых и аудиокодеках.
Руслан Калимуллин
ML-инженер в Huawei. Занимается разработкой и внедрением легковесных моделей для генеративного улучшения речи и музыки на телефонах и носимых устройствах. Отвечает за генерацию оптимальных аугментаций и симуляцию данных для data‑driven‑подходов.
Купить курс — дело серьёзное, поэтому помогаем сэкономить
Оплата курса целиком с выгодой до 20%
Когда решитесь на покупку, увидите итоговую стоимость — она зависит от способа оплаты: целиком или по частям.
Возврат денег
Если передумаете в первую неделю, нужно будет оплатить только время с начала вашего потока. Если позже — время с начала потока и организацию обучения. Подробнее — в 7 пункте оферты.
Можно вернуть 13% от стоимости курса — поможем оформить нужные документы.
Этот курс может оплатить ваш работодатель
Полностью или разделив оплату с вами,
например 50/50 или 75/25
Расскажем всё про курс
Сообщим стоимость
Ответим на ваши вопросы
Подготовим договор и счёт
Есть оплата через работодателя, свою компанию или ИП.
Для тех, кто хочет освоить не только речевые технологии, но и NLP
Научитесь создавать нейросети, которые понимают речь, работают с текстом и ведут голосовой диалог. Освоите различные языковые модели и самые продвинутые методы NLP, сразу начнёте применять их на практике, что позволит автоматизировать анализ текстов и проводить их интерпретацию.
Если у вас есть вопросы
про учёбу, оставьте заявку — мы позвоним
Отвечаем на вопросы
Каким требованиям нужно соответствовать?
Программа рассчитана на специалистов, у которых уже есть опыт работы с нейросетями.
Для успешного обучения на курсе нужны:
• Навыки программирования на Python, включая знание ООП.
• Опыт в анализе данных, их визуализации и манипулировании ими.
• Базовые знания по математике: о функциях, их формульном представлении и дифференцировании.
• Базовые знания в линейной алгебре: о матрицах, их свойствах и типовых операциях с ними, таких как сложение, умножение, транспонирование.
• Базовое понимание архитектур нейросетей, например Transformer.
• Представление о работе с DL-фреймворками, например PyTorch.
Кто будет меня учить?
Все наставники — практикующие специалисты: сотрудники Яндекса и других крупных компаний. Программу составляют опытные преподаватели и методисты, а ещё действующие специалисты Яндекса, Школы анализа данных и других лидеров технологической и образовательной индустрий.
Что делать, если я не справлюсь с нагрузкой?
Если вам нужно больше времени на выполнение проекта, напишите куратору. Он подскажет, как согласовать новый дедлайн.
Если не понравится, я могу вернуть деньги?
Если курс ещё не начался, вернём всю сумму. Если ваш поток уже стартовал, можно сделать частичный возврат — подробности в 7 пункте оферты.
Получу ли я какой-то документ после курса?
Да, для этого нужно закончить курс и успешно выполнить итоговый проект.
Тогда вы получите удостоверение о повышении квалификации, если у вас есть среднее профессиональное или высшее образование. Если нет, отправим вам сертификат о прохождении курса в электронном виде.
А если не получится пройти курс целиком и выполнить итоговый проект, по запросу выдадим вам электронную справку об обучении — с перечнем модулей, которые вы освоили.
Вы поможете сменить или найти работу?
На этом курсе не предусмотрена помощь с трудоустройством, поскольку он для действующих специалистов, у которых уже есть навыки поиска работы.
Но если у вас появится вопрос о карьерном развитии, обратитесь в нашу службу поддержки — постараемся ответить.
Как можно оплатить?
Банковской картой: внести всю сумму сразу или платить ежемесячно.
Ежемесячные платежи работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Обучение будет стоить меньше, если оплатить весь курс сразу.
Через компанию, если она налоговый резидент РФ. Условия для юридических лиц и ИП отличаются — чтобы узнать подробнее, оставьте заявку или уточните у вашего менеджера.
Что такое налоговый вычет на обучение и как его получить?
Налоговый вычет может получить тот, кто работает по трудовому договору и является налоговым резидентом Российской Федерации, то есть 183 дня в году находится на территории страны.