Аудиоанализ и модели речи позволяют нейросетям понимать и создавать звуки
Как это работает
ИИ умеет слушать и распознавать речь, различать звуки и создавать естественное звучание. Эти технологии используются в голосовых ассистентах, расшифровке речи, аудиомониторинге и озвучке контента.
Навыки, которые вы освоите на курсе

PyTorch
Whisper
CNN
RNN
wav2vec
HuBERT
CTC
Seq2Seq
ASR
TTS
Librosa
TorchAudio
MelSpectrogram
HiFi-GAN
ONNX
Регулярно обновляем программу, чтобы вы проходили только актуальное
Курс рассчитан на 3 месяца, нагрузка — 10 часов в неделю
2 часа
Бесплатно
Нейросетевые решения на практике
  • PyTorch
  • CV
  • NLP
  • Speech
Знакомство с курсом
Узнаете, как организован курс: из чего состоит программа, как устроена платформа, какие активности вас ждут
Введение в нейросети и их роль в решении сложных задач
Поймёте, в каких областях применяются нейросети и какие задачи они решают в реальной жизни
Работа с текстами
Освоите механизмы архитектуры Transformer, сделаете предобработку и построите решение для анализа сентимента
Работа с изображениями
Разберётесь с базовой задачей классификации изображений и построите пайплайн обучения
Нейросети на практике
Научитесь использовать нейросети в повседневной практике и для решения профессиональных задач
Попробуете применять предобученные модели для анализа текста и изображений. Узнаете, как интерпретировать результаты
1
1 проект・2 недели
Цифровая обработка аудио и классические модели классификации
Познакомитесь с устройством аудиосигнала, извлечением признаков (STFT, мел-спектрограммы, MFCC), подготовкой аудиодатасетов и построением классических моделей аудиоклассификации (CNN, RNN и CRNN).
  • Librosa
  • TorchAudio
  • MelSpectrogram
  • MFCC
  • PyTorch
  • CNN
  • RNN
  • CRNN
Аудиосигнал как числовое представление
Что такое дискретизация и амплитуда
Частотные признаки
Как получить STFT, мел‑спектрограммы и MFCC
Подготовка аудиодатасетов
Нормализация, выравнивание длины, шумы и фоновые эффекты
Классические модели
CNN, RNN и CRNN для аудиоклассификации
Создадите конвейер обработки аудио: преобразуете звук в спектрограммы и построите аудиоклассификатор. Проведёте эксперименты и сравните архитектуры между собой
2
2 недели
Распознавание речи: классические СТС и трансформерные модели
Освоите базовые и трансформерные архитектуры распознавания речи — от подготовки данных и CTC-моделей до Seq2Seq‑подходов и современных encoder-decoder‑систем. Сможете обучать модели, выполнять декодирование и оценивать качество распознавания.
  • CTC
  • Seq2Seq
  • ASR
  • Transformers
  • Whisper
Подготовка данных для ASR
Познакомитесь с сегментацией аудио, нормализацией сигнала, токенизацией текста, выбором единиц распознавания и формированием обучающих пар звук‑текст
CTC-модели и выравнивание последовательностей
Изучите принцип обучения без временной разметки, роль blank‑токена, механизм сопоставления аудио и текстовой последовательности
Seq2Seq и трансформеры в ASR
Рассмотрите архитектуры энкодер-декодер, механизм внимания и различия между авторегрессионными и неавторегрессионными моделями
Декодирование и языковые модели
Изучите жадное декодирование и beam search, разберёте влияние внешней языковой модели на итоговый текст и сможете оценивать качество распознавания с помощью метрик WER и CER
Начнёте разработку системы распознавания речи: подготовите датасет, реализуете и обучите базовую модель, настроите декодирование и оцените качество по метрикам WER и CER
3
1 проект・2 недели
SSL и большие речевые модели
Освоите современные подходы к обучению речевых моделей без разметки и разберётесь, как устроены foundation-модели и Speech LLM. Сможете дообучать self-supervised‑модели и сравнивать их качество с классическими архитектурами.
  • SSL
  • wav2vec 2.0
  • HuBERT
  • Speech LLM
  • Foundation Models
  • Fine-tuning
Self-Supervised Learning в речи
Будете предобучать модели на неразмеченном аудио и дообучать их на задаче распознавания, рассмотрите принципы работы wav2vec и HuBERT
Архитектура wav2vec и HuBERT
Познакомитесь с контрастивным обучением, masked prediction, дискретизацией представлений и поймёте, чем это отличается от обучения с нуля
Fine-tuning и перенос на новые домены
Узнаете, как дообучать модели на размеченных данных, влиять на объёмы корпуса и адаптацию к новым задачам
Speech LLM и Audio Conditioned Models
Объедините речевой энкодер и языковую модель, обучите её на инструкциях, познакомитесь с мультимодальными архитектурами и диалоговыми системами на основе речи
Дообучите самообучающуюся модель, сравните качество с базовой архитектурой, проанализируете различия и подготовите итоговый ASR-скрипт, принимающий аудио и возвращающий текст
4
1 проект・2 недели
Синтез речи и управление характеристиками голоса
Изучите современные архитектуры синтеза речи и поймёте, как формируются тембр, интонация и стиль голоса. Сможете управлять характеристиками речи и разберётесь, как работают системы voice cloning и какие риски связаны с deepfake-аудио.
  • TTS
  • FastSpeech
  • HiFi-GAN
  • Vocoder
  • Deepfake
  • Speaker embedding
  • Zero-shot TTS
Архитектура TTS‑системы
Создадите полный конвейер от текста к аудиосигналу, научитесь преобразовывать текст в фонемы, предсказывать спектрограммы и генерировать звук
Предсказание спектрограммы в FastSpeech
Изучите неавторегрессионный синтез, моделирование длительности фонем и формирование акустического представления речи
Нейросетевые вокодеры и HiFi-GAN
Преобразуете спектрограммы в аудиосигнал и изучите принципы работы современных вокодеров
Управление голосом и стилем
Используете speaker embeddings, поработаете с многоспикерными моделями, контролем темпа, высоты голоса и тембра
Voice cloning и deepfake-аудио
Узнаете, что такое zero‑shot‑ и few‑shot‑ клонирование голоса, разберёте ограничения технологии, риски использования и методы детекции синтетической речи
Создадите систему синтеза речи с управлением параметрами голоса и оцените качество полученного аудио
5
2 недели
Инференс и оптимизация аудиомоделей
Научитесь собирать модели в рабочий инференс-контур, оптимизировать скорость их работы и объединять распознавание и синтез в единую цепочку.
  • ONNX
  • FP16
  • Inference pipeline
  • Model optimization
Экспорт модели в компактный формат
Преобразуете модели в ONNX и подготовите к оптимизированному запуску
Ускорение работы модели на видеокарте
Примените оптимизированную точность
Сборка инференс‑контура ASR и TTS
Объединение шагов обработки
Тестирование и валидация готового контура
Используете speaker embeddings, поработаете с многоспикерными моделями, контролем темпа, высоты голоса и тембра
1 неделя
Итоговый проект: разработка интеллектуального голосового сервиса
В рамках итоговой работы вы создадите полноценную систему обработки речи, объединяющую распознавание, языковую обработку и синтез ответа. Проект включает сборку единого инференс-контура, оптимизацию модели и демонстрацию работы сервиса в формате прототипа.
Получите удостоверение о повышении квалификации
Это официальный документ установленного образца, который принимают работодатели. Образовательная лицензия № Л035‑01298‑77/00185314 от 24 марта 2015 года.
Как устроен курс
Практикум ИИ помогает учиться
Когда в теории что‑то непонятно, нейросеть ответит на вопросы или объяснит материал другими словами. А в конце каждого урока подготовит краткий пересказ о самом главном.
Этот курс может оплатить
ваш работодатель
Полностью или разделив оплату с вами,
например 50/50 или 75/25
  • Расскажем всё про курс
  • Сообщим стоимость
  • Ответим на ваши вопросы
  • Подготовим договор и счёт
 
Есть оплата через работодателя, свою компанию или ИП.
  •                                        
Для тех, кто хочет освоить не только речевые технологии, но и NLP
Научитесь создавать нейросети, которые понимают речь, работают с текстом и ведут голосовой диалог. Освоите различные языковые модели и самые продвинутые методы NLP, сразу начнёте применять их на практике, что позволит автоматизировать анализ текстов и проводить их интерпретацию.

Смотреть курс «Глубокое обучение нейросетей: NLP и аудиоречевые технологии»

Если у вас есть вопросы про учёбу, оставьте заявку — мы позвоним

Как планируете учиться?
Отвечаем на вопросы
Каким требованиям нужно соответствовать?
Программа рассчитана на специалистов, у которых уже есть опыт работы с нейросетями.

Для успешного обучения на курсе нужны:
• Навыки программирования на Python, включая знание ООП.
• Опыт в анализе данных, их визуализации и манипулировании ими.
• Базовые знания по математике: о функциях, их формульном представлении и дифференцировании.
• Базовые знания в линейной алгебре: о матрицах, их свойствах и типовых операциях с ними, таких как сложение, умножение, транспонирование.
• Базовое понимание архитектур нейросетей, например Transformer.
• Представление о работе с DL-фреймворками, например PyTorch.
Кто будет меня учить?
Все наставники — практикующие специалисты: сотрудники Яндекса и других крупных компаний. Программу составляют опытные преподаватели и методисты, а ещё действующие специалисты Яндекса, Школы анализа данных и других лидеров технологической и образовательной индустрий.
Что делать, если я не справлюсь с нагрузкой?
Если вам нужно больше времени на выполнение проекта, напишите куратору. Он подскажет, как согласовать новый дедлайн.
Если не понравится, я могу вернуть деньги?
Если курс ещё не начался, вернём всю сумму. Если ваш поток уже стартовал, можно сделать частичный возврат — подробности в 7 пункте оферты.
Получу ли я какой-то документ после курса?
Да, для этого нужно закончить курс и успешно выполнить итоговый проект.

Тогда вы получите удостоверение о повышении квалификации, если у вас есть среднее профессиональное или высшее образование. Если нет, отправим вам сертификат о прохождении курса в электронном виде.

А если не получится пройти курс целиком и выполнить итоговый проект, по запросу выдадим вам электронную справку об обучении — с перечнем модулей, которые вы освоили.
Вы поможете сменить или найти работу?
На этом курсе не предусмотрена помощь с трудоустройством, поскольку он для действующих специалистов, у которых уже есть навыки поиска работы.

Но если у вас появится вопрос о карьерном развитии, обратитесь в нашу службу поддержки — постараемся ответить.
Как можно оплатить?
Банковской картой: внести всю сумму сразу или платить ежемесячно.

Ежемесячные платежи работают так: вы вносите первую оплату, и в этот момент привязывается карта. С этой карты автоматически будут списываться следующие платежи каждые 30 календарных дней. Например, оплатили 25 марта — следующий платёж пройдёт 24 апреля. Обучение будет стоить меньше, если оплатить весь курс сразу.

Через компанию, если она налоговый резидент РФ. Условия для юридических лиц и ИП отличаются — чтобы узнать подробнее, оставьте заявку или уточните у вашего менеджера.
Что такое налоговый вычет на обучение и как его получить?
Налоговый вычет может получить тот, кто работает по трудовому договору и является налоговым резидентом Российской Федерации, то есть 183 дня в году находится на территории страны.

Вот инструкция, которая поможет всё оформить.

Давайте поможем

Напишите, как вас зовут и по какому номеру можно связываться, — в течение 30 минут позвоним и расскажем всё про курсы

Как планируете учиться?