В рамках базовой программы «Специалист Data Science» мы разрабатываем уроки для следующих модулей:
- Основы машинного обучения. Линейные модели (Знакомство с МО. Первая модель — Линейная регрессия, Логистическая регрессия, Метод опорных векторов (SVM))
- Обучение моделей. Модели на основе деревьев и обучение без учителя (Решающее дерево, Random forest, Boosting and gradient boosting, Обучение без учителя)
- Внедрение, мониторинг, AB-тесты моделей (Внедрение и мониторинг моделей, Формулировка гипотез, Анализируем результаты А/В тестирования с помощью Python, Подготовка к собеседованиям)
А в рамках расширенной версии программы мы разрабатываем уроки для учебных спринтов:
- Обработка больших данных, Трекинг экспериментов в ML flow, Введение в глубинное обучение. Нейронные сети для изображений, Нейронные сети для текстов, Рекомендательные системы.
Авторы должны глубоко понимать одну или несколько тем, которые мы включили в программу (достаточна экспертиза в конкретной теме/инструменте из списка). Для этого необходим опыт работы со следующими инструментами:
- Scikit-learn. Ожидаем, что ты активно используешь библиотеку для решения практических задач машинного обучения. Важно уверенно обучать и валидировать различные модели машинного обучения, выполнять предобработку данных, а также проводить отбор признаков и настройку гиперпараметров моделей.
- XGBoost/LightGBM/CatBoost. Ожидаем, что ты знаком с особенностями каждой библиотеки, умеешь эффективно настраивать гиперпараметры с помощью Optuna, а также проводить интерпретацию моделей с помощью feature importance, permutation importance и SHAP для решения реальных задач.
- Pandas и NumPy. Важно иметь опыт работы с табличными данными, уверенно использовать pandas для очистки и обработки данных, а также применять NumPy для векторизации вычислений.
- MLflow. Здорово, если ты имеешь опыт трекинга экспериментов, логирования параметров, метрик и моделей с помощью MLflow. Важно понимание того, как использовать этот инструмент для построения воспроизводимых экспериментов, а также понимание общей культуры проведения экспериментов в разработке моделей.
- PyTorch и Hugging Face. Для работы с DL ожидаем, что ты владеешь PyTorch, умеешь строить, обучать и настраивать архитектуры нейронных сетей (сверточные нейронные сети для изображений, рекуррентные сети и трансформеры для текстов). Также важно иметь опыт работы с Hugging Face для работы с современными NLP и CV моделями.
- Apache Spark и PySpark. Ожидаем опыт работы с PySpark для обработки и подготовки больших данных для задач машинного обучения. Важно понимание архитектуры систем обработки больших данных и Apache Spark.
- Airflow. Ожидаем, что ты умеешь создавать и автоматизировать процессы обработки данных с помощью DAG-ов в Apache Airflow. Важно, чтобы ты понимал, как реализовывать батч-инференс моделей через Airflow и имел представление о том, как использовать Airflow для построения систем мониторинга моделей.
- RecSys. Ожидаем, что у тебя есть опыт разработки рекомендательных систем, включая гибридные подходы, матричные факторизации и content-based модели. Будет здорово, если ты владеешь библиотеками LightFM и Implicit, а также понимаешь, как оценивать качество рекомендательных систем.
А также:
- Техническое образование (преимущественно в области ML).
- Опыт работы Data scientist или на смежных позициях от 3-х лет.
- Непреодолимое желание делиться знаниями и опытом, рассказывать сложное доступно и понятно. Так, чтобы вас поняли люди без опыта в этой сфере.
- Умение грамотно и интересно писать, а где уместно — шутить, придумывать аналогии и метафоры, чтобы объяснить.
- Дружелюбие и умение работать с командой сообща.
- Опыт преподавания, публичных выступлений или авторства экспертных статей — будет преимуществом.