Много раз мы сталкиваемся с термином команда платформы данных. Что это такое? Если сказать простыми словами — это специализированная группа инженеров, которая создаёт и поддерживает централизованную инфраструктуру для работы с цифровыми данными в компании.
Платформа данных — это ИТ отдел, но для данных

Компетенции Дата Стюарда

Data Steward (стюард данных) отвечает за управление, качество и метаданные на стороне источника данных. Его фокус — чистота, согласованность, доступность и документирование данных для аналитиков и бизнеса.
Зоны ответственности в архитектуре данных

Основы анализа данных
- Работа с структурированными данными (Excel — таблицы, SQL-базы данных).
- Понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
- Понимание форматов (JSON, XML).
Работа с цифровыми данными
- Ведение глоссария данных (бизнес-термины, их определения).
- Работа с каталогом данных (DataHub, OpenMetadata).
- Аннотирование метаданных (описание источника, схем, владельца).
- Проверка полноты, уникальности, точности данных на стороне источника.
- Выявление дубликатов, пропусков, аномалий на стороне источника данных.
- Настройка нотификаций при ухудшении качества данных на стороне источника.
- Написание простых SQL запросов (OLTP / OLAP)
Работа с требованиями и процессами разработки
- Знание стандартов создания цифровых продуктов: CRISP/DM, CRISP/ML
- Умение переводить бизнес-вопросы в ответы на основании данных в источнике
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
- Участие в регламентах Data Governance
- Умение документировать процессы и цифровые данные на стороне источника
Примеры вопросов на собеседовании
- Как вы организуете и документируете метаданные? Какие инструменты использовали?
- Как вы обеспечиваете обфускацию персональных данных
- Как вы взаимодействуете с бизнес-командами, чтобы объяснить им структуру данных или ограничения качества?
- Как вы проводите аудит данных и определяете их актуальность?
- Какие подходы вы используете для классификации данных (PII, конфиденциальные, публичные)?
Компетенции Аналитика Данных

Аналитик данных работает с данными, преобразую в полезную информацию, для проведения R&D исследований, проверки гипотез для поиска закономерностей, проблем, аномалий, помогает бизнесу принимать решения.
Зоны ответственности в архитектуре данных

Основы анализа данных
- Работа с структурированными данными (Excel — таблицы, SQL-базы данных).
- Понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
- Основы математической статистики (меры центральной тенденции, меры разброса, корреляция (по Пирсону, Спирмену) и статзначимость, ошибки I и II рода).
- Понимание форматов (JSON, XML — для API и сложных источников).
- Формулировка гипотез (H0, H1) и A/B-тестирование
- Тестирование гипотез (t-тест, z-тест, критерий Пирсона)
- Знание базовых бизнес-метрик и их расчет: конверсия, retention, LTV, ROI.
- Когортный анализ
Работа с цифровыми данными
- Написание сложных SQL запросов (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
- Понимание логических слоев данных (от сырого слоя данных до слоя цифрового продукта). Использование виртуальных таблиц (view) и материализованных представлений (materialized view)
- Умение работать с разными СУБД через IDE: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum.
- Умение работать с большими данными (Hadoop, pySpark, S3)
- Умение работать с Python библиотеками для анализа данных: Pandas, NumPy, SciPy.
- Умение работать с Python библиотеками для визуализации в рамках проверки гипотез: Matplotlib, Seaborn, Plotly, GraphX
- Понимание ETL-процессов (извлечение, трансформация, загрузка).
- Умение проводить очистку данных (обработка пропусков, дубликатов, выбросов).
- Умение проводить верификацию данных (проверка на корректность).
- Умение работать с корпоративными инструментами для проведения R&D исследований: Apache Zeppelin, JupyterLab
- Умение создавать модели данных для описания бизнес процесса (реляционная модель, EAV, USS, DataVault 2.x, DataVault 3.x, Снежинка …)
- Умение проводить нормализацию / денормализацию моделей данных
- Умение работать с каталогизатором данных (OpenMetaData, DataHub, …)
- Контроль родословной данных (Data Lineage) — отслеживание происхождения данных.
Работа с базовыми алгоритмами
- Умение применять классические алгоритмы машинного обучения: кластеризация, классификация, регрессия над данными в Python
- Умение интерпретировать полученные основные метрики задачи машинного обучения (accuracy, precision, recall, F1-score, ROC-AUC, Log Loss, MSE, RMSE, …)
- Умение применять автоматизированный ML и интерпретировать результаты (фреймоворк H20 в Python)
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как найти дубликаты в реляционной таблице?
- В чем разница между медианой и средним? Когда использовать каждое?
- Как удалить пропущенные значения в DataFrame, используя pandas?
- Какой график из библиотеки Seaborn выбрать для сравнения долей?
- Как оценить качество A/B-теста?
- Спроектировать модель данных для сохранения банковских транзакции в базе данных
Компетенции BI разработчика

BI разработчик создает витрины данных. Информация принимает удобную форму для восприятия аналитиков и руководителей.
Зоны ответственности в архитектуре данных

Работа с цифровыми данными
- Написание сложных SQL запросов (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
- Понимание логических слоев данных (от сырого слоя данных до слоя цифрового продукта). Использование виртуальных таблиц (view) и материализованных представлений (materialized view)
- Умение работать с разными СУБД через IDE: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum.
- Умение работать с внешними данными через REST API для их использования в витринах
- Умение проводить оперативную очистку данных в коде витрины данных
- Умение создавать витрины данных в более чем в 3 разных инструментах (PowerBI, DataLens, SuperSet, Looker, Visiology, Tableau, …)
- Знание потоковых данных и вывод их в витрины (scoreboards)
- Умение проектировать схемы данных на стороне BI инструментов
- Знание как работать с кэшированием данных на стороне BI инструмента
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
- Знание UI/UX дизайна для представления визуализации данных в удобной бизнес форме
- Умение администрировать (ролевая политика, квоты) и настраивать (подключение к источникам данных, глобальные переменные, фильтры) BI инструмент
Примеры вопросов на собеседовании
- Как вы проектируете схему данных для дашборда?
- Как настроить RLS (Row-Level Security) в BI инструменте?
- Как автоматизировать ежедневный отчет в BI инструменте?
- Как масштабировать BI-инфраструктуру для 1000+ пользователей?
- Какой вид графика выбрать для визуализации воронки продаж?
Компетенции инженера по качеству

Инженер по качеству занимается проверкой информации, которая должна быть согласована и соответствовать требованиям по установленным метрикам качества.
Зоны ответственности в архитектуре данных

Основы анализа данных
- Работа с структурированными данными (Excel — таблицы, SQL-базы данных).
- Понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
- Основы математической статистики (меры центральной тенденции, меры разброса, корреляция (по Пирсону, Спирмену) и статзначимость, ошибки I и II рода).
- Понимание форматов (JSON, XML — для API и сложных источников).
Работа с цифровыми данными
- Написание сложных SQL запросов (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
- Умение работать с разными СУБД: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum.
- Умение работать с большими данными (Hadoop, pySpark, S3)
- Умение работать с более чем 3 брокерами сообщений: Kafka, Pulsar, RabbitMQ, NATS, …
- Умение работать с Python библиотеками для анализа данных: Pandas, NumPy, SciPy.
- Понимание ETL-процессов (извлечение, трансформация, загрузка).
- Умение создавать базовые метрики измерения качества по обработке пропусков, дубликатов, выбросов в данных и автоматизировать их.
- Умение создавать продвинутые метрики измерения качества верификации данных (проверка на корректность) и автоматизировать их.
- Умение работать с каталогизатором данных (OpenMetaData, DataHub, …)
- Умение внедрять метрики измерения качества как для стационарных данных в базах данных, так и в потоковых данных на уровне транспортного слоя данных
- Умение работать в специализированных инструментах Data Quality (Great Expectations, Deequ, …)
- Умение внедрять и работать с мониторингом / нотификацией по изменению метрик качества данных
- Умение создавать метрики качества данных на уровне цифровых продуктов (витрин данных)
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение переводить бизнес-вопросы в метрики измерения качества данных
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как вы проверяете качество данных? Какие метрики и инструменты используете?
- Как вы автоматизируете проверку качества данных в ETL/ELT-процессах?
- Какие SQL-запросы вы пишете для поиска аномалий в данных?
- Как вы работаете с большими объемами данных (Big Data)? Какие инструменты применяете?
- Как вы согласовываете стандарты качества данных с аналитиками и дата-инженерами?
Компетенции дата инженера

Дата-инженер использует Middleware инфраструктуру для работы с данными, включая предварительную обработку и трансформацию
Зоны ответственности в архитектуре данных

Работа с цифровыми данными
- Умение создавать сложные SQL запросы (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
- Оптимизация SQL запросов с использованием разных техник индексации, конфигурации, параллелизма
- Умение работать с разными СУБД: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum, Neo4j с точки зрения оптимизации, хранения и трансформации данных
- Умение работать с большими данными (Hadoop, HDFS, Hive, pySpark, S3)
- Умение работать с брокерами сообщений: Kafka, Pulsar, RabbitMQ, NATS, …
- Умение настраивать, оптимизировать ETL-процессы (извлечение, трансформация, загрузка).
- Умение работать с каталогизатором данных (OpenMetaData, DataHub, …)
- Умение внедрять и работать с мониторингом / нотификацией по состоянию пользовательских данных
- Понимание архитектуры данных: КХД / DataWareHouse / DataLake / LakeHouse
- Понимание логических слоев данных в архитектуре: Raw / ODS / DDS / Mart … и справочных таблиц SCD
- Умение создавать интеграции между базами данных для обмена данными
- Понимание типов архитектур: Каппа (Kappa), Лямбда (Lambda), Point-to-point
- Умение работать с виртуализацией данных в рамках Data-Mesh подхода (Trino) и архитектуры ANSI-SPARC
- Работа с разными форматами данных: Parquet, Avro, ORC, JSON, CSV, XML, ProtoBuf
- Глубокое понимание типов таблиц в базах данных (партицирование, шардирование, внешние, нежурналируемые, кластеризованные, …)
- Интеграция API, CDC (Change Data Capture), логгирование для данных
- Миграция и управление версиями моделей данных в базе данных (flyway, liquibase, …)
- Умение создавать модели данных для описания бизнес процесса (реляционная модель, EAV, USS, DataVault 2.x, DataVault 3.x, Снежинка …)
- Умение проводить нормализацию / денормализацию моделей данных
- Умение управления доступом к данным в разных базах данных (roles, RLS, permissions, grants, …)
- Умение шифрования данных, применение алгоритмов обфускации над данными
- Анализ медленных QL запросов в разных базах данных (PROFILE, EXPLAIN, ANALYZE)
- Умение работать с in-memory базами данных (Memcahched, Redis)
- Умение сконфигурировать и внедрить TTL / Retention Policy для данных
- Глубокое умение работы с Python (потоки, ООП, многозадачность, FastAPI, Django, Flask)
- Глубокое умение работы с noSQL базами данных (Hbase, Cassandra)
- Умение работать с распределенными данными и распределенной нагрузкой в базах данных
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов : CRISP/DM, CRISP/ML
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
- Умение работать с docker контейнерами
Примеры вопросов на собеседовании
- Как вы проектируете ETL/ELT-пайплайн для обработки больших данных?
- Как вы оптимизируете медленный SQL-запрос?
- Как бы вы обрабатываете потоковые данные (real-time)?
- Как вы развертывали и масштабировали хранилище данных (DWH)?
- Как вы использовали DBT инструмент в интеграции с Apache Airflow?
Компетенции DataOps инженера

DataOps инженер занимается автоматизацией и мониторингом управления данными в течение всего их жизненного цикла. Занимается построением и обслуживанием Middleware инфраструктуры по данным
Зоны ответственности в архитектуре данных

Работа с дата инфраструктурой
- Умение проектировать и поддерживать конвейеры данных (data pipelines) с использованием инструментов (Airflow, Dagster, Prefect, Kubeflow).
- Настройка и оптимизация ETL/ELT-процессов с учетом требований к скорости, надежности и мониторингу.
- Работа с облачными платформами и их сервисами для обработки данных
- Управление оркестрацией данных (CI/CD для данных, версионирование дата-пайплайнов).
- Настройка мониторинга данных (Data Observability) с помощью инструментов (Monte Carlo, Great Expectations, Soda).
- Работа с брокерами сообщений (Kafka, Pulsar, RabbitMQ) и потоковой обработкой (Flink, Spark Streaming).
- Умение создавать и поддерживать высокодоступные кластеры баз данных (High Availability)
- Умение создавать и поддерживать высокомасштабируемые кластеры баз данных (High Scability)
- Знание и умение проведение планируемых переключений в базах данных (DB Switchover)
- Знание и умение восстановление данных (backup) и баз данных (DB Failover)
- Умение внедрять Infrastructure as Code (IaC) (Terraform, Puppet, Ansible) для развертывания инфраструктуры данных.
- Настройка CI/CD для дата-процессов (GitHub Actions, GitLab CI, ArgoCD).
- Управление контейнеризацией и оркестрацией (Docker, Kubernetes, Helm).
- Автоматизация тестирования данных (unit-тесты, data quality checks).
- Работа с конфигурацией и секретами (Vault).
- Внедрение каталогизации данных (DataHub, OpenMetadata, Collibra).
- Управление метаданными и lineage (отслеживание происхождения данных).
- Настройка управления доступом (RBAC, ABAC) для данных.
- Обеспечение безопасности данных (шифрование, маскирование).
- Глубокое знание Python (асинхронность, многопоточность, FastAPI, ООП).
- Работа с Big Data-стеками (Hadoop, Spark, Delta Lake, Iceberg).
- Умение настраивать распределенные вычисления (Dask, Ray).
- Опыт с NoSQL (MongoDB, Cassandra, DynamoDB).
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов : CRISP/DM, CRISP/ML
Примеры вопросов на собеседовании
- Как вы внедряете CI/CD для пайплайнов данных?
- Как вы управляете инфраструктурой данных (IaC)?
- Как вы реализуете Data Lineage и метаданные в DataOps?
- Как вы обрабатываете конфиденциальные данные (PII) в пайплайнах?
- Как вы оптимизируете стоимость дата инфраструктуры?
Компетенции Дата журналиста

Дата журналист рассказывает истории через цифровые данные. Использует EDA анализ в виде инфографиков и расследований
Зоны ответственности в архитектуре данных

Работа с цифровыми данными
- Умение собирать данные из открытых источников (госстатистика, API, веб-скрейпинг).
- Понимание типов данных (числовые, категориальные, временные ряды).
- Базовые навыки очистки данных (обработка пропусков, аномалий, дубликатов).
- Навыки описательной статистики (медиана, среднее, процентили).
- Умение выявлять тренды и закономерности в данных.
- Понимание корреляций и причинно-следственных связей (без ложных выводов).
- Создание понятных и информативных графиков на Python (Matplotlib, Seaborn, Plotly).
- Работа с интерактивными дашбордами (Tableau, Power BI, SuperSet, Visiology).
- Основы картографии (GIS, QGIS, Kepler.gl для геоданных).
- Умение превращать данные в истории (структура: проблема → анализ → вывод).
- Навыки написания текстов (ясно, кратко, визуально).
- Работа с форматами: лонгриды, интерактивные статьи, дата-видео.
- Умение адаптировать контент под разные социальные платформы
- Навыки SEO-оптимизации (как сделать статью видимой в поиске).
- Анализ аудитории (метрики охвата, вовлеченности).
- Понимание законов о данных (авторское право).
- Проверка фактов (fact-checking) и работа с источниками.
- Этичное использование данных.
- Знание и умение работы с механиками Data Mining
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение плотно работать с различными LLM моделями (DeepSeek, ChatGPT, GigaChat) и обобщать полученные результаты, фильтруя «галлюцинации» нейросетей
Примеры вопросов на собеседовании
- Как вы находите и проверяете достоверность данных для своих материалов?
- Приведите пример, как вы превратили сложные данные в понятную историю для широкой аудитории.
- Какие инструменты вы используете для визуализации данных?
- Как вы объясняете аудитории, что корреляция ≠ причинно-следственная связь?
- Как вы адаптируете один набор данных под разные платформы (статья, соцсети, видео)?
Компетенции PROMPT инженера

PROMPT инженер формулирует максимально точные запросы к различным языковым моделям ИИ, чтобы получить максимально корректный ответ.
Зоны ответственности в архитектуре данных

Основы работы с генеративным ИИ
- Понимание архитектуры LLM (трансформеры, контекстное окно, токенизация).
- Знание различий между моделями (GPT-4, Claude, Mistral, локальные модели).
- Основы fine-tuning и RAG (Retrieval-Augmented Generation).
Навыки проектирования PROMPT-запросов
- Умение формулировать структурированные PROMT запросы (Chain-of-Thought, Few-Shot, Zero-Shot).
- Оптимизация PROMT запроса под задачи:
- Креативные (генерация текста, сценариев).
- Аналитические (суммаризация, классификация).
- Технические (генерация кода, SQL-запросов).
- Работа с контекстом и системными PROMT запросами (ролевые модели, ограничения).
- Работа с метриками оценки: точность, релевантность, креативность.
- Работа с инструменты: A/B-тестирование PROMT запросов, логирование результатов.
- Выявление и исправление bias (предвзятости) в ответах.
- Работа с API LLM (OpenAI, Anthropic, Mistral).
- Использование фреймворков для управления PROMT запросами:
- LangChain, LlamaIndex — для сложных цепочек запросов.
- Semantic Kernel — интеграция с enterprise-системами.
- Базовые навыки Python для автоматизации (Jupyter Notebook, скрипты).
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение плотно работать с различными LLM моделями (DeepSeek, ChatGPT, GigaChat) и обобщать полученные результаты, фильтруя «галлюцинации» нейросетей
- Расчет стоимости PROMT запросов (токены, цена API).
- Снижение издержек: сжатие PROMT запросов, кэширование ответов.
- Ведение PROMT-библиотек (шаблоны для частых задач).
- Создание инструкций для пользователей (как правильно задавать вопросы).
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как вы проектируете эффективный PROMT для сложной задачи?
- Как вы измеряете качество ответов LLM? Какие метрики используете?
- Как вы оптимизируете PROMT для уменьшения токенов без потери качества?
- Как вы обрабатываете edge-cases (непредвиденные ответы модели)?
- Как вы интегрируете LLM в существующий продукт (например, чат-бот)?
Компетенции MLOps инженера

MLOps инженер занимается автоматизацией и мониторингом управления моделями машинного обучения и глубокого обучения
Зоны ответственности в архитектуре данных

Основы Машинного Обучения
- Понимание типов задач Машинного Обучения: классификация, регрессия, кластеризация.
- Знание метрик качества моделей (Accuracy, Precision, Recall, F1, ROC-AUC, MSE).
- Базовые навыки работы с фреймворками в Python: Scikit-learn, TensorFlow, PyTorch, XGBoost.
Работа с цифровыми данными и middleware слоем
- Умение и знание как подготовить фичи (атрибуты) (Feature Engineering) и работать с пайплайнами данных.
- Умение и знание как работать с Python: Pandas, PySpark.
- Умение и знание как интегрироваться с хранилищами данных (S3, HDFS, SQL/NoSQL БД).
- Умение и знание как развернуть и осуществлять поддержку Feature Catalog
- Умение и знание как развернуть и осуществлять поддержку векторных баз данных
- Умение и знание как осуществлять поддержку и ведение версий моделей ML / AI: MLflow, DVC (Data Version Control).
- Умение и знание как работать с цифровыми данными: Delta Lake, DVC.
- Умение и знание как настроить CI/CD процессы для обучения, переобучения, развертывания моделей ML / AI.
- Умение и знание как упаковать модели ML / AI в Docker-контейнеры / Kubernetes pods.
- Умение и знание как работать и интерпретировать метрики моделей: Prometheus + Grafana, MLflow Tracking.
- Умение и знание как управлять ресурсами (GPU/CPU) в Kubernetes
- Знание и умение настройки балансировки нагрузки: A/B-тесты, Canary-развертывания.
- Умение и знание как развернуть и осуществлять поддержку ML инфраструктуры: Terraform, Ansible, Puppet.
- Умение и знание как управлять конфигурациями моделями ML инфраструктуры
- Умение и знание как настроить и осуществить интеграции компонент AutoML (автоматизированного Машинного Обучения)
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как вы развертываете ML-модель в промышленную среду? Опишите ваш подход.
- Как вы мониторите дрейф данных (Data Drift) и концептуальный дрейф (Concept Drift)?
- Как вы организуете CI/CD для ML/AI-пайплайнов?
- Как вы оптимизируете инференс-модели для снижения затрат?
- Как вы обеспечиваете воспроизводимость экспериментов?
Компетенции DS инженера

DS инженер создает цифровые продукты на основе ИИ. Использует навыки глубокого анализа данных, строит модели машинного обучения и глубокого ИИ
Зоны ответственности в архитектуре данных

Глубокий анализ данных
- Умение и знание как работать с структурированными данными (Excel — таблицы, SQL-базы данных).
- Глубокое понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
- Глубокое понимание математической статистики, теории вероятности, линейной алгебры
- Умение и знание как формулировать и тестировать гипотезы (H0, H1)
Работа с цифровыми данными
- Умение и знание как работать с ETL/ELT-пайплайнами: Apache Airflow, Luigi, Dagster.
- Умение и знание как создавать ML/AI агентов и ботов
- Умение и знание как обрабатывать большие данные: Pandas, PySpark, .
- Умение и знание как работать с хранилищами данных: SQL, NoSQL, MPP системы, графовые и векторные базы данных.
- Умение и знание как работать с языками программирования: Python (основной), SQL, Scala/Java (для Spark).
- Умение и знание как создавать и анализировать прототипирование: Jupyter Notebook / Apache Zeppelin → Финальный-код (ООП, модульные тесты).
- Умение и знание как создавать API для моделей: FastAPI, Flask, gRPC.
- Умение и знание как работать с контейнеризацией: Docker, управление зависимостями (poetry, conda).
- Умение и знание как работать с ускорением инференса: Квантование, ONNX Runtime, Triton Inference Server.
- Умение и знание как управлять ресурсами: Оптимизация CPU/GPU/TPU, автоскейлинг.
- Умение и знание как работать с Feature Stores: Feast, Hopsworks.
- Умение и знание как создавать версии моделей ML/AI: MLflow, DVC, Weights & Biases.
- Знание как развертывать модель в промышленную эксплуатацию ML/AI: Kubernetes, AWS SageMaker, GCP Vertex AI.
- Умение и знание как настраивать мониторинг за моделями ML/AI: Evidently, Prometheus, Grafana.
- Умение и знание работы с CI/CD процессом: GitHub Actions, GitLab CI/CD, тестирование моделей (pytest).
Алгоритмы Data Science и Machine Learning
- Строгое знание и умение работать с алгоритмами ML / AI: Регрессия, классификация, кластеризация, ансамбли (XGBoost, LightGBM)
- Строгое знание и умение использовать разные нейросетевые архитектуры под конкретные типы задач (CNN, RNN, Transformers).
- Строгое знание и умение интерпретации метрик качества: Accuracy, Precision, Recall, F1, ROC-AUC, MSE, MAE.
- Строгое знание и умение интерпретации моделей ML/AI: SHAP, LIME, Feature Importance.
- Строгое знание и умение в оптимизации ML/AI : Подбор гиперпараметров, кросс-валидация.
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML
- Умение переводить бизнес-вопросы в технические гипотезы с последующим подтверждением / опровержением / уточнением
- Умение объяснять результаты работы сервисов на основании ML/AI алгоритмов не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как вы оптимизируете feature engineering для большой таблицы с 1000+ колонок?
- Как уменьшить размер NLP-модели без потери качества?
- Как вы реализуете A/B-тестирование для новой ML-модели?
- Как вы обрабатываете категориальные признаки в датасете с 100+ уникальными значениями?
- Как вы ускоряете обучение модели на больших данных (1TB+)?
- Как вы обрабатываете пропуски в данных, если 30% значений отсутствует?
Компетенции Архитектора Данных

Архитектор данных проектирует / адаптирует архитектуру данных на основании рисков, бизнес-требований, безопасности и регламентирует управление цифровыми данными
Зоны ответственности в архитектуре данных

Проектирование архитектуры данных
- Глубокое умение и знание как разработать стратегии данных (Data Strategy) в соответствии с бизнес-целями.
- Глубокое умение и знание как сделать выбор оптимальных моделей хранения:
- Реляционные (OLTP: PostgreSQL, MySQL).
- Колоночные (OLAP: ClickHouse).
- NoSQL (MongoDB, Cassandra, Elasticsearch).
- Data Lakes (Delta Lake, Iceberg) и Lakehouse.
- Глубокое умение и знание как проектировать логические слои данных (raw, staging, curated, mart).
- Глубокое умение и знание как работать с виртуализацией / материализацией данных
- Глубокое умение и знание как проектировать модель данных на основании бизнес требований
- Глубокое умение и знание как работает архитектура обработки больших данных
- Глубокое умение и знание как оптимизировать стоимость и производительность (партиционирование, шардирование).
- Глубокое умение и знание как описать и предложить технический контракт данных для потребителя
- Глубокое умение и знание как работать с облачными платформами и гибридными решениями.
- Глубокое умение и знание как разрабатывать и внедрять стандарты именования, метаданные и метрики качества данных.
- Глубокое умение и знание как реализовывать Data Lineage (родословная данных).
- Глубокое умение и знание как проектировать дата—пайплайны (Airflow, Dagster, dbt).
- Глубокое умение и знание как реализовать CDC (Change Data Capture) и репликацию.
- Глубокое умение и знание как оптимизировать загрузки и трансформации (инкрементальная / полная).
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
- Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как бы вы спроектировали Платформу Данных для компании с 50+ источниками данных?
- Какие критерии вы используете при выборе между Data Lake и Data Warehouse?
- Как реализовать Data Lineage для 1000+ таблиц?
- Как обеспечить согласованность данных при работе с микросервисами?
- Как масштабировать систему при росте данных на порядок?
- Что такое идемпотентность данных? Приведите примеры
Компетенции Архитектора ML / AI

Архитектор ML/AI проектирует / адаптирует архитектуру ML и AI на основании рисков, бизнес-требований, безопасности и регламентирует управление продуктами машинного обучения
Зоны ответственности в архитектуре данных

Проектирование ML/AI-систем
- Глубокое умение и знание как применять архитектурные паттерны для ML:
- Микросервисы или монолит
- Offline- и online-инференс (синхронный/асинхронный).
- Edge AI (развёртывание на устройствах).
- Глубокое умение и знание как выбирать стек технологий под задачу:
- Фреймворки: TensorFlow, PyTorch, ONNX, Hugging Face.
- Инфраструктура: Kubernetes, Ray, Seldon Core.
- Глубокое умение и знание как производить расчёт ресурсов: GPU/TPU, CPU, память, сетевые задержки.
- Глубокое умение и знание как проектировать Feature Stores (Feast, Hopsworks).
- Глубокое умение и знание как оптимизировать пайплайны данных для обучения (Apache Beam, Spark).
- Глубокое умение и знание как сконфигурировать CI/CD для ML:
- Тестирование моделей (pytest, Great Expectations).
- Автоматическое переобучение при дрейфе данных.
- Глубокое умение и знание как анализировать и объяснять метрики мониторинга :
- Метрики моделей (accuracy, latency, drift).
- Инструменты: Prometheus, Evidently, WhyLabs.
- Глубокое умение и знание какую применять стратегию развертывания моделей: A/B-тесты, Canary-релизы, Shadow Mode.
- Глубокое умение и знание как ускорять инференс: Квантование, дистилляция, pruning
- Глубокое умение и знание как управлять стоимостями владения: автомасштабирование, выбор облачных сервисов
- Глубокое умение и знание как работать с генеративным AI. Оптимизация LLM (LoRA, Quantization). RAG-архитектуры (векторные БД + поиск).
- Глубокое умение и знание как проводить интеграцию ML-моделей в промышленную среду (Seldon, MLflow, Kubeflow).
- Глубокое умение и знание как проектировать и использовать Feature Stores (Feast, Hopsworks).
Работа с требованиями и процессами разработки
- Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
- Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
- Умение объяснять результаты работы сервисов на основании ML/AI алгоритмов не-техническим специалистам.
- Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
Примеры вопросов на собеседовании
- Как бы вы спроектировали систему для рекомендаций в реальном времени в приложении с 10M пользователей?
- Какие стратегии развертывания вы выберете для бизнес-критической ML-модели (например, кредитный скоринг)?
- Как обеспечить конфиденциальность данных при обучении federated learning?
- Как масштабировать инференс LLM с 1K до 1M RPS?
- Как интегрировать ML-модель в legacy-систему на Java?
