Какие преимущества даёт обучение в Яндекс Практикуме?

100 000+ выпускников 💻 Много проектов 🖤 Поддержка экспертов

Анализ данныхИскусственный интеллектPRO

Курс «Аудиоанализ, распознавание и генерация речи»

Q: Как можно оплатить?

**Банковской картой**: внести всю сумму сразу или платить ежемесячно. **Ежемесячные платежи** работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Обучение будет стоить меньше, если оплатить весь курс сразу. **Через компанию**, если она налоговый резидент РФ. Условия для юридических лиц и ИП отличаются — чтобы узнать подробнее, [оставьте заявку](https://forms.yandex.ru/surveys/10037266.f683087a6a1d7d78344ffa203df53c02666e0c25){target="_blank" rel="noopener noreferrer" style="color: rgba(0, 0, 0, 0.85)"} или уточните у вашего менеджера.

За 3 месяца освоите полный цикл разработки голосового сервиса и создадите его с нуля

Начать учиться бесплатно

Ближайший старт — 27 августа, 24 сентября и 29 октября

Освоите ИИ для работы и жизни

32 000

профессионалов уже повысили свой уровень

86%

студентов используют знания в работе

Полный стек обработки аудиоданных
Обучение и дообучение речевых моделей
Практика на виртуальных машинах с GPU
Классические модели распознавания речи: CNN, RNN, CTC
Современные речевые модели: wav2vec, HuBERT, Whisper
Технологии синтеза речи: FastSpeech, HiFi‑GAN

Аудиоанализ и модели речи позволяют нейросетям понимать и создавать звуки

Как это работает

ИИ умеет слушать и распознавать речь, различать звуки и создавать естественное звучание. Эти технологии используются в голосовых ассистентах, расшифровке речи, аудиомониторинге и озвучке контента.

Это курс для специалистов с опытом работы в машинном обучении

Для ML-инженеров

Освоите работу с аудиоданными и речевыми моделями. Разберётесь в спектрограммах, аудиопризнаках и архитектурах для распознавания речи, научитесь применять современные модели для задач аудиоанализа.

Для DL-инженеров

Изучите современные архитектуры для распознавания и синтеза речи, разберётесь в аудиотрансформерах и сможете строить полноценные аудиосервисы — от обработки сигнала до оптимизированного инференса.

Для NLP-специалистов

Расширите экспертизу в сторону речевых технологий. Поймёте, как работают системы распознавания и синтеза речи и как интегрировать голосовые интерфейсы и речевые модели с языковыми моделями.

Через 3 месяца вы сможете

Разрабатывать голосовые сервисы — от распознавания до синтеза речи
Дообучать модели под конкретные задачи и данные
Интегрировать аудиомодели в голосовые системы
Работать с аудиосигналом, извлекать признаки и строить спектрограммы
Создавать модели аудиоклассификации на основе CNN и RNN
Разрабатывать системы распознавания речи на основе CTC
Применять современные речевые модели: wav2vec, HuBERT, Whisper
Проектировать системы синтеза речи на основе FastSpeech и HiFi-GAN
Оптимизировать аудиомодели для быстрого инференса

Навыки, которые вы освоите на курсе

PyTorch

Whisper

CNN

RNN

wav2vec

HuBERT

CTC

Seq2Seq

ASR

TTS

Librosa

TorchAudio

MelSpectrogram

HiFi-GAN

ONNX

2 часа

Бесплатно

Нейросетевые решения на практике

PyTorch
CV
NLP
Speech

Знакомство с курсом

Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут

Введение в нейросети и их роль в решении сложных задач

Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни

Работа с текстами

Освоите механизмы архитектуры Transformer, сделаете предобработку и построите решение для анализа сентимента

Работа с изображениями

Разберётесь с базовой задачей классификации изображений и построите пайплайн обучения

Нейросети на практике

Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач

Попробуете применять предобученные модели для анализа текста и изображений. Узнаете, как интерпретировать результаты

1 проект・2 недели

Цифровая обработка аудио и классические модели классификации

Познакомитесь с устройством аудиосигнала, извлечением признаков (STFT, мел-спектрограммы, MFCC), подготовкой аудиодатасетов и построением классических моделей аудиоклассификации (CNN, RNN и CRNN).

Librosa
TorchAudio
MelSpectrogram
MFCC
PyTorch
CNN
RNN
CRNN

Аудиосигнал как числовое представление

Что такое дискретизация и амплитуда

Частотные признаки

Как получить STFT, мел‑спектрограммы и MFCC

Подготовка аудиодатасетов

Нормализация, выравнивание длины, шумы и фоновые эффекты

Классические модели

CNN, RNN и CRNN для аудиоклассификации

Создадите конвейер обработки аудио: преобразуете звук в спектрограммы и построите аудиоклассификатор. Проведёте эксперименты и сравните архитектуры между собой

2 недели

Распознавание речи: классические СТС и трансформерные модели

Освоите базовые и трансформерные архитектуры распознавания речи — от подготовки данных и CTC-моделей до Seq2Seq‑подходов и современных encoder-decoder‑систем. Сможете обучать модели, выполнять декодирование и оценивать качество распознавания.

CTC
Seq2Seq
ASR
Transformers
Whisper

Подготовка данных для ASR

Познакомитесь с сегментацией аудио, нормализацией сигнала, токенизацией текста, выбором единиц распознавания и формированием обучающих пар звук‑текст

CTC-модели и выравнивание последовательностей

Изучите принцип обучения без временной разметки, роль blank‑токена, механизм сопоставления аудио и текстовой последовательности

Seq2Seq и трансформеры в ASR

Рассмотрите архитектуры энкодер-декодер, механизм внимания и различия между авторегрессионными и неавторегрессионными моделями

Декодирование и языковые модели

Изучите жадное декодирование и beam search, разберёте влияние внешней языковой модели на итоговый текст и сможете оценивать качество распознавания с помощью метрик WER и CER

Начнёте разработку системы распознавания речи: подготовите датасет, реализуете и обучите базовую модель, настроите декодирование и оцените качество по метрикам WER и CER

1 проект・2 недели

SSL и большие речевые модели

Освоите современные подходы к обучению речевых моделей без разметки и разберётесь, как устроены foundation-модели и Speech LLM. Сможете дообучать self-supervised‑модели и сравнивать их качество с классическими архитектурами.

SSL
wav2vec 2.0
HuBERT
Speech LLM
Foundation Models
Fine-tuning

Self-Supervised Learning в речи

Будете предобучать модели на неразмеченном аудио и дообучать их на задаче распознавания, рассмотрите принципы работы wav2vec и HuBERT

Архитектура wav2vec и HuBERT

Познакомитесь с контрастивным обучением, masked prediction, дискретизацией представлений и поймёте, чем это отличается от обучения с нуля

Fine-tuning и перенос на новые домены

Узнаете, как дообучать модели на размеченных данных, влиять на объёмы корпуса и адаптацию к новым задачам

Speech LLM и Audio Conditioned Models

Объедините речевой энкодер и языковую модель, обучите её на инструкциях, познакомитесь с мультимодальными архитектурами и диалоговыми системами на основе речи

Дообучите самообучающуюся модель, сравните качество с базовой архитектурой, проанализируете различия и подготовите итоговый ASR-скрипт, принимающий аудио и возвращающий текст

1 проект・2 недели

Синтез речи и управление характеристиками голоса

Изучите современные архитектуры синтеза речи и поймёте, как формируются тембр, интонация и стиль голоса. Сможете управлять характеристиками речи и разберётесь, как работают системы voice cloning и какие риски связаны с deepfake-аудио.

TTS
FastSpeech
HiFi-GAN
Vocoder
Deepfake
Speaker embedding
Zero-shot TTS

Архитектура TTS‑системы

Создадите полный конвейер от текста к аудиосигналу, научитесь преобразовывать текст в фонемы, предсказывать спектрограммы и генерировать звук

Предсказание спектрограммы в FastSpeech

Изучите неавторегрессионный синтез, моделирование длительности фонем и формирование акустического представления речи

Нейросетевые вокодеры и HiFi-GAN

Преобразуете спектрограммы в аудиосигнал и изучите принципы работы современных вокодеров

Управление голосом и стилем

Используете speaker embeddings, поработаете с многоспикерными моделями, контролем темпа, высоты голоса и тембра

Voice cloning и deepfake-аудио

Узнаете, что такое zero‑shot‑ и few‑shot‑ клонирование голоса, разберёте ограничения технологии, риски использования и методы детекции синтетической речи

Создадите систему синтеза речи с управлением параметрами голоса и оцените качество полученного аудио

2 недели

Инференс и оптимизация аудиомоделей

Научитесь собирать модели в рабочий инференс-контур, оптимизировать скорость их работы и объединять распознавание и синтез в единую цепочку.

ONNX
FP16
Inference pipeline
Model optimization

Экспорт модели в компактный формат

Преобразуете модели в ONNX и подготовите к оптимизированному запуску

Ускорение работы модели на видеокарте

Примените оптимизированную точность

Сборка инференс‑контура ASR и TTS

Объединение шагов обработки

Тестирование и валидация готового контура

Используете speaker embeddings, поработаете с многоспикерными моделями, контролем темпа, высоты голоса и тембра

1 неделя

Итоговый проект: разработка интеллектуального голосового сервиса

В рамках итоговой работы вы создадите полноценную систему обработки речи, объединяющую распознавание, языковую обработку и синтез ответа. Проект включает сборку единого инференс-контура, оптимизацию модели и демонстрацию работы сервиса в формате прототипа.

Получите удостоверение о повышении квалификации

Это официальный документ установленного образца, который принимают работодатели. Образовательная лицензия № Л035‑01298‑77/00185314 от 24 марта 2015 года.

Начать учиться бесплатно

Как устроен курс

Только необходимая теория — на интерактивной платформе

Будете осваивать всё самое необходимое с помощью текстовых материалов, заданий и квизов. Можно заниматься во сколько и где удобно, даже с телефона.

Очень много практики

За курс сделаете 4 проекта — закрепите новые навыки и пополните портфолио. Работы важно сдавать в срок, чтобы получить подробную обратную связь от опытных инженеров.

На готовой инфраструктуре в облаке

У вас будет S3‑хранилище, прерываемая виртуальная машина с GPU, которая запускается по клику.

Практикум ИИ помогает учиться

Когда в теории что‑то непонятно, нейросеть ответит на вопросы или объяснит материал другими словами. А в конце каждого урока подготовит краткий пересказ о самом главном.

Будете учиться у ML-инженеров из крупных компаний: занимаетесь сами, но мы всегда рядом

Авторы собрали весь свой опыт в одной программе

ML-инженеры собрали и систематизировали свои знания, чтобы передать вам самое необходимое

Антон Моргунов

Программный эксперт курса. Senior инженер по компьютерному зрению в IT‑компании.

Александр Иванов

ML-инженер в Сбере. Занимается разработкой генеративного ИИ в аудиодомене. Ранее был ML-инженером в Huawei. Специализируется на нейросетевых речевых и аудиокодеках.

Руслан Калимуллин

ML-инженер в Huawei. Занимается разработкой и внедрением легковесных моделей для генеративного улучшения речи и музыки на телефонах и носимых устройствах. Отвечает за генерацию оптимальных аугментаций и симуляцию данных для data‑driven‑подходов.

Начать учиться бесплатно

Купить курс — дело серьёзное, поэтому помогаем сэкономить

Оплата курса целиком с выгодой до 20%

Когда решитесь на покупку, увидите итоговую стоимость — она зависит от способа оплаты: целиком или по частям.

Возврат денег

Если передумаете в первую неделю, нужно будет оплатить только время с начала вашего потока.
Если позже — время с начала потока и организацию обучения. Подробнее — в 7 пункте оферты.

Почитать оферту

Налоговый вычет

Можно вернуть 13% от стоимости курса — поможем оформить нужные документы.

Этот курс может оплатить
ваш работодатель

Полностью или разделив оплату с вами,
например 50/50 или 75/25

Расскажем всё про курс
Сообщим стоимость
Ответим на ваши вопросы
Подготовим договор и счёт

Для тех, кто хочет освоить не только речевые технологии, но и NLP

Научитесь создавать нейросети, которые понимают речь, работают с текстом и ведут голосовой диалог. Освоите различные языковые модели и самые продвинутые методы NLP, сразу начнёте применять их на практике, что позволит автоматизировать анализ текстов и проводить их интерпретацию.

Смотреть курс «Глубокое обучение нейросетей: NLP и аудиоречевые технологии»

Если у вас есть вопросы про учёбу, оставьте заявку — мы позвоним

Отвечаем на вопросы

Каким требованиям нужно соответствовать?

Программа рассчитана на специалистов, у которых уже есть опыт работы с нейросетями.

Для успешного обучения на курсе нужны:
• Навыки программирования на Python, включая знание ООП.
• Опыт в анализе данных, их визуализации и манипулировании ими.
• Базовые знания по математике: о функциях, их формульном представлении и дифференцировании.
• Базовые знания в линейной алгебре: о матрицах, их свойствах и типовых операциях с ними, таких как сложение, умножение, транспонирование.
• Базовое понимание архитектур нейросетей, например Transformer.
• Представление о работе с DL-фреймворками, например PyTorch.

Кто будет меня учить?

Все наставники — практикующие специалисты: сотрудники Яндекса и других крупных компаний. Программу составляют опытные преподаватели и методисты, а ещё действующие специалисты Яндекса, Школы анализа данных и других лидеров технологической и образовательной индустрий.

Что делать, если я не справлюсь с нагрузкой?

Если вам нужно больше времени на выполнение проекта, напишите куратору. Он подскажет, как согласовать новый дедлайн.

Если не понравится, я могу вернуть деньги?

Если курс ещё не начался, вернём всю сумму. Если ваш поток уже стартовал, можно сделать частичный возврат — подробности в 7 пункте оферты.

Получу ли я какой-то документ после курса?

Да, для этого нужно закончить курс и успешно выполнить итоговый проект.

Тогда вы получите удостоверение о повышении квалификации, если у вас есть среднее профессиональное или высшее образование. Если нет, отправим вам сертификат о прохождении курса в электронном виде.

А если не получится пройти курс целиком и выполнить итоговый проект, по запросу выдадим вам электронную справку об обучении — с перечнем модулей, которые вы освоили.

Вы поможете сменить или найти работу?

На этом курсе не предусмотрена помощь с трудоустройством, поскольку он для действующих специалистов, у которых уже есть навыки поиска работы.

Но если у вас появится вопрос о карьерном развитии, обратитесь в нашу службу поддержки — постараемся ответить.

Как можно оплатить?

Банковской картой: внести всю сумму сразу или платить ежемесячно.

Ежемесячные платежи работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Обучение будет стоить меньше, если оплатить весь курс сразу.

Через компанию, если она налоговый резидент РФ. Условия для юридических лиц и ИП отличаются — чтобы узнать подробнее, оставьте заявку или уточните у вашего менеджера.

Что такое налоговый вычет на обучение и как его получить?

Налоговый вычет может получить тот, кто работает по трудовому договору и является налоговым резидентом Российской Федерации, то есть 183 дня в году находится на территории страны.

Вот инструкция, которая поможет всё оформить.

Давайте поможем

Мы перезваниваем в течение 30 минут каждый день с 10:00 до 19:00. Если оставите заявку сейчас, то перезвоним уже в рабочее время.

Даю согласие АНО ДПО «Образовательные технологии Яндекса» на обработку персональных данных в целях обратной связи по заявке