Роли специалистов по данным

Много раз мы сталкиваемся с термином команда платформы данных. Что это такое? Если сказать простыми словами — это специализированная группа инженеров, которая создаёт и поддерживает централизованную инфраструктуру для работы с цифровыми данными в компании.

Платформа данных — это ИТ отдел, но для данных


Компетенции Дата Стюарда

Data Steward (стюард данных) отвечает за управление, качество и метаданные на стороне источника данных. Его фокус — чистота, согласованность, доступность и документирование данных для аналитиков и бизнеса.

Зоны ответственности в архитектуре данных

Основы анализа данных

  • Работа с структурированными данными (Excel — таблицы, SQL-базы данных).
  • Понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
  • Понимание форматов (JSON, XML).

Работа с цифровыми данными

  • Ведение глоссария данных (бизнес-термины, их определения).
  • Работа с каталогом данных (DataHub, OpenMetadata).
  • Аннотирование метаданных (описание источника, схем, владельца).
  • Проверка полноты, уникальности, точности данных на стороне источника.
  • Выявление дубликатов, пропусков, аномалий на стороне источника данных.
  • Настройка нотификаций при ухудшении качества данных на стороне источника.
  • Написание простых SQL запросов (OLTP / OLAP)

Работа с требованиями и процессами разработки

  • Знание стандартов создания цифровых продуктов: CRISP/DM, CRISP/ML
  • Умение переводить бизнес-вопросы в ответы на основании данных в источнике
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
  • Участие в регламентах Data Governance 
  • Умение документировать процессы и цифровые данные на стороне источника

Примеры вопросов на собеседовании

  1. Как вы организуете и документируете метаданные? Какие инструменты использовали?
  2. Как вы обеспечиваете обфускацию персональных данных
  3. Как вы взаимодействуете с бизнес-командами, чтобы объяснить им структуру данных или ограничения качества?
  4. Как вы проводите аудит данных и определяете их актуальность?
  5. Какие подходы вы используете для классификации данных (PII, конфиденциальные, публичные)?

Компетенции Аналитика Данных

Аналитик данных работает с данными, преобразую в полезную информацию, для проведения R&D исследований, проверки гипотез для поиска закономерностей, проблем, аномалий, помогает бизнесу принимать решения.

Зоны ответственности в архитектуре данных

Основы анализа данных

  • Работа с структурированными данными (Excel — таблицы, SQL-базы данных).
  • Понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
  • Основы математической статистики (меры центральной тенденции, меры разброса, корреляция (по Пирсону, Спирмену) и статзначимость, ошибки I и II рода).
  • Понимание форматов (JSON, XML — для API и сложных источников).
  • Формулировка гипотез (H0, H1) и A/B-тестирование
  • Тестирование гипотез (t-тест, z-тест, критерий Пирсона)
  • Знание базовых бизнес-метрик и их расчет: конверсия, retention, LTV, ROI.
  • Когортный анализ

Работа с цифровыми данными

  • Написание сложных SQL запросов (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
  • Понимание логических слоев данных (от сырого слоя данных до слоя цифрового продукта). Использование виртуальных таблиц (view) и материализованных представлений (materialized view)
  • Умение работать с разными СУБД через IDE: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum.
  • Умение работать с большими данными (Hadoop, pySpark, S3)
  • Умение работать с Python библиотеками для анализа данныхPandas, NumPy, SciPy.
  • Умение работать с Python библиотеками для визуализации в рамках проверки гипотез: Matplotlib, Seaborn, Plotly, GraphX
  • Понимание ETL-процессов (извлечение, трансформация, загрузка).
  • Умение проводить очистку данных (обработка пропусков, дубликатов, выбросов).
  • Умение проводить верификацию данных (проверка на корректность).
  • Умение работать с корпоративными инструментами для проведения R&D исследований: Apache Zeppelin, JupyterLab
  • Умение создавать модели данных для описания бизнес процесса (реляционная модель, EAV, USS, DataVault 2.x, DataVault 3.x, Снежинка …)
  • Умение проводить нормализацию / денормализацию моделей данных
  • Умение работать с каталогизатором данных (OpenMetaData, DataHub, …)
  • Контроль родословной данных (Data Lineage) — отслеживание происхождения данных.

Работа с базовыми алгоритмами

  • Умение применять классические алгоритмы машинного обучения: кластеризация, классификация, регрессия над данными в Python
  • Умение интерпретировать полученные основные метрики задачи машинного обучения (accuracy, precision, recall, F1-score, ROC-AUC, Log Loss, MSE, RMSE, …)
  • Умение применять автоматизированный ML и интерпретировать результаты (фреймоворк H20 в Python)

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как найти дубликаты в реляционной таблице?
  2. В чем разница между медианой и средним? Когда использовать каждое?
  3. Как удалить пропущенные значения в DataFrame, используя pandas?
  4. Какой график из библиотеки Seaborn выбрать для сравнения долей?
  5. Как оценить качество A/B-теста?
  6. Спроектировать модель данных для сохранения банковских транзакции в базе данных

Компетенции BI разработчика

BI разработчик создает витрины данных. Информация принимает удобную форму для восприятия аналитиков и руководителей.

Зоны ответственности в архитектуре данных

Работа с цифровыми данными

  • Написание сложных SQL запросов (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
  • Понимание логических слоев данных (от сырого слоя данных до слоя цифрового продукта). Использование виртуальных таблиц (view) и материализованных представлений (materialized view)
  • Умение работать с разными СУБД через IDE: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum.
  • Умение работать с внешними данными через REST API для их использования в витринах
  • Умение проводить оперативную очистку данных в коде витрины данных
  • Умение создавать витрины данных в более чем в 3 разных инструментах (PowerBI, DataLens, SuperSet, Looker, Visiology, Tableau, …)
  • Знание потоковых данных и вывод их в витрины (scoreboards)
  • Умение проектировать схемы данных на стороне BI инструментов
  • Знание как работать с кэшированием данных на стороне BI инструмента

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
  • Знание UI/UX дизайна для представления визуализации данных в удобной бизнес форме
  • Умение администрировать (ролевая политика, квоты) и настраивать (подключение к источникам данных, глобальные переменные, фильтры) BI инструмент

Примеры вопросов на собеседовании

  1. Как вы проектируете схему данных для дашборда?
  2. Как настроить RLS (Row-Level Security) в BI инструменте?
  3. Как автоматизировать ежедневный отчет в BI инструменте?
  4. Как масштабировать BI-инфраструктуру для 1000+ пользователей?
  5. Какой вид графика выбрать для визуализации воронки продаж?

Компетенции инженера по качеству

Инженер по качеству занимается проверкой информации, которая должна быть согласована и соответствовать требованиям по установленным метрикам качества.

Зоны ответственности в архитектуре данных

Основы анализа данных

  • Работа с структурированными данными (Excel — таблицы, SQL-базы данных).
  • Понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
  • Основы математической статистики (меры центральной тенденции, меры разброса, корреляция (по Пирсону, Спирмену) и статзначимость, ошибки I и II рода).
  • Понимание форматов (JSON, XML — для API и сложных источников).

Работа с цифровыми данными

  • Написание сложных SQL запросов (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
  • Умение работать с разными СУБД: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum.
  • Умение работать с большими данными (Hadoop, pySpark, S3)
  • Умение работать с более чем 3 брокерами сообщений: Kafka, Pulsar, RabbitMQ, NATS, …
  • Умение работать с Python библиотеками для анализа данныхPandas, NumPy, SciPy.
  • Понимание ETL-процессов (извлечение, трансформация, загрузка).
  • Умение создавать базовые метрики измерения качества по обработке пропусков, дубликатов, выбросов в данных и автоматизировать их.
  • Умение создавать продвинутые метрики измерения качества верификации данных (проверка на корректность) и автоматизировать их.
  • Умение работать с каталогизатором данных (OpenMetaData, DataHub, …)
  • Умение внедрять метрики измерения качества как для стационарных данных в базах данных, так и в потоковых данных на уровне транспортного слоя данных
  • Умение работать в специализированных инструментах Data Quality (Great Expectations, Deequ, …)
  • Умение внедрять и работать с мониторингом / нотификацией по изменению метрик качества данных
  • Умение создавать метрики качества данных на уровне цифровых продуктов (витрин данных)

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение переводить бизнес-вопросы в метрики измерения качества данных
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как вы проверяете качество данных? Какие метрики и инструменты используете?
  2. Как вы автоматизируете проверку качества данных в ETL/ELT-процессах?
  3. Какие SQL-запросы вы пишете для поиска аномалий в данных?
  4. Как вы работаете с большими объемами данных (Big Data)? Какие инструменты применяете?
  5. Как вы согласовываете стандарты качества данных с аналитиками и дата-инженерами?

Компетенции дата инженера

Дата-инженер использует Middleware инфраструктуру для работы с данными, включая предварительную обработку и трансформацию

Зоны ответственности в архитектуре данных

Работа с цифровыми данными

  • Умение создавать сложные SQL запросы (OLTP / OLAP, вложенные запросы, иерархические запросы, CTE)
  • Оптимизация SQL запросов с использованием разных техник индексации, конфигурации, параллелизма
  • Умение работать с разными СУБД: PostgreSQL, MySQL, MS SQL, ClickHouse, GreenPlum, Neo4j с точки зрения оптимизации, хранения и трансформации данных
  • Умение работать с большими данными (Hadoop, HDFS, Hive, pySpark, S3)
  • Умение работать с брокерами сообщений: Kafka, Pulsar, RabbitMQ, NATS, …
  • Умение настраивать, оптимизировать ETL-процессы (извлечение, трансформация, загрузка).
  • Умение работать с каталогизатором данных (OpenMetaData, DataHub, …)
  • Умение внедрять и работать с мониторингом / нотификацией по состоянию пользовательских данных
  • Понимание архитектуры данных: КХД / DataWareHouse / DataLake / LakeHouse
  • Понимание логических слоев данных в архитектуре: Raw / ODS / DDS / Mart … и справочных таблиц SCD
  • Умение создавать интеграции между базами данных для обмена данными
  • Понимание типов архитектур: Каппа (Kappa), Лямбда (Lambda), Point-to-point
  • Умение работать с виртуализацией данных в рамках Data-Mesh подхода (Trino) и архитектуры ANSI-SPARC
  • Работа с разными форматами данных: Parquet, Avro, ORC, JSON, CSV, XML, ProtoBuf
  • Глубокое понимание типов таблиц в базах данных (партицирование, шардирование, внешние, нежурналируемые, кластеризованные, …)
  • Интеграция API, CDC (Change Data Capture), логгирование для данных
  • Миграция и управление версиями моделей данных в базе данных (flyway, liquibase, …)
  • Умение создавать модели данных для описания бизнес процесса (реляционная модель, EAV, USS, DataVault 2.x, DataVault 3.x, Снежинка …)
  • Умение проводить нормализацию / денормализацию моделей данных
  • Умение управления доступом к данным в разных базах данных (roles, RLS, permissions, grants, …)
  • Умение шифрования данных, применение алгоритмов обфускации над данными
  • Анализ медленных QL запросов в разных базах данных (PROFILE, EXPLAIN, ANALYZE)
  • Умение работать с in-memory базами данных (Memcahched, Redis)
  • Умение сконфигурировать и внедрить TTL / Retention Policy для данных
  • Глубокое умение работы с Python (потоки, ООП, многозадачность, FastAPI, Django, Flask)
  • Глубокое умение работы с noSQL базами данных (Hbase, Cassandra)
  • Умение работать с распределенными данными и распределенной нагрузкой в базах данных

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов : CRISP/DM, CRISP/ML
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)
  • Умение работать с docker контейнерами

Примеры вопросов на собеседовании

  1. Как вы проектируете ETL/ELT-пайплайн для обработки больших данных?
  2. Как вы оптимизируете медленный SQL-запрос?
  3. Как бы вы обрабатываете потоковые данные (real-time)?
  4. Как вы развертывали и масштабировали хранилище данных (DWH)?
  5. Как вы использовали DBT инструмент в интеграции с Apache Airflow?

Компетенции DataOps инженера

DataOps инженер занимается автоматизацией и мониторингом управления данными в течение всего их жизненного цикла. Занимается построением и обслуживанием Middleware инфраструктуры по данным

Зоны ответственности в архитектуре данных

Работа с дата инфраструктурой

  • Умение проектировать и поддерживать конвейеры данных (data pipelines) с использованием инструментов (Airflow, Dagster, Prefect, Kubeflow).
  • Настройка и оптимизация ETL/ELT-процессов с учетом требований к скорости, надежности и мониторингу.
  • Работа с облачными платформами и их сервисами для обработки данных
  • Управление оркестрацией данных (CI/CD для данных, версионирование дата-пайплайнов).
  • Настройка мониторинга данных (Data Observability) с помощью инструментов (Monte Carlo, Great Expectations, Soda).
  • Работа с брокерами сообщений (Kafka, Pulsar, RabbitMQ) и потоковой обработкой (Flink, Spark Streaming).
  • Умение создавать и поддерживать высокодоступные кластеры баз данных (High Availability)
  • Умение создавать и поддерживать высокомасштабируемые кластеры баз данных (High Scability)
  • Знание и умение проведение планируемых переключений в базах данных (DB Switchover)
  • Знание и умение восстановление данных (backup) и баз данных (DB Failover)
  • Умение внедрять Infrastructure as Code (IaC) (Terraform, Puppet, Ansible) для развертывания инфраструктуры данных.
  • Настройка CI/CD для дата-процессов (GitHub Actions, GitLab CI, ArgoCD).
  • Управление контейнеризацией и оркестрацией (Docker, Kubernetes, Helm).
  • Автоматизация тестирования данных (unit-тесты, data quality checks).
  • Работа с конфигурацией и секретами (Vault).
  • Внедрение каталогизации данных (DataHub, OpenMetadata, Collibra).
  • Управление метаданными и lineage (отслеживание происхождения данных).
  • Настройка управления доступом (RBAC, ABAC) для данных.
  • Обеспечение безопасности данных (шифрование, маскирование).
  • Глубокое знание Python (асинхронность, многопоточность, FastAPI, ООП).
  • Работа с Big Data-стеками (Hadoop, Spark, Delta Lake, Iceberg).
  • Умение настраивать распределенные вычисления (Dask, Ray).
  • Опыт с NoSQL (MongoDB, Cassandra, DynamoDB).

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов : CRISP/DM, CRISP/ML

Примеры вопросов на собеседовании

  1. Как вы внедряете CI/CD для пайплайнов данных?
  2. Как вы управляете инфраструктурой данных (IaC)?
  3. Как вы реализуете Data Lineage и метаданные в DataOps?
  4. Как вы обрабатываете конфиденциальные данные (PII) в пайплайнах?
  5. Как вы оптимизируете стоимость дата инфраструктуры?

Компетенции Дата журналиста

Дата журналист рассказывает истории через цифровые данные. Использует EDA анализ в виде инфографиков и расследований 

Зоны ответственности в архитектуре данных

Работа с цифровыми данными

  • Умение собирать данные из открытых источников (госстатистика, API, веб-скрейпинг).
  • Понимание типов данных (числовые, категориальные, временные ряды).
  • Базовые навыки очистки данных (обработка пропусков, аномалий, дубликатов).
  • Навыки описательной статистики (медиана, среднее, процентили).
  • Умение выявлять тренды и закономерности в данных.
  • Понимание корреляций и причинно-следственных связей (без ложных выводов).
  • Создание понятных и информативных графиков на Python (Matplotlib, Seaborn, Plotly).
  • Работа с интерактивными дашбордами (Tableau, Power BI, SuperSet, Visiology).
  • Основы картографии (GIS, QGIS, Kepler.gl для геоданных).
  • Умение превращать данные в истории (структура: проблема → анализ → вывод).
  • Навыки написания текстов (ясно, кратко, визуально).
  • Работа с форматами: лонгриды, интерактивные статьи, дата-видео.
  • Умение адаптировать контент под разные социальные платформы
  • Навыки SEO-оптимизации (как сделать статью видимой в поиске).
  • Анализ аудитории (метрики охвата, вовлеченности).
  • Понимание законов о данных (авторское право).
  • Проверка фактов (fact-checking) и работа с источниками.
  • Этичное использование данных.
  • Знание и умение работы с механиками Data Mining

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение плотно работать с различными LLM моделями (DeepSeek, ChatGPT, GigaChat) и обобщать полученные результаты, фильтруя «галлюцинации» нейросетей

Примеры вопросов на собеседовании

  1. Как вы находите и проверяете достоверность данных для своих материалов?
  2. Приведите пример, как вы превратили сложные данные в понятную историю для широкой аудитории.
  3. Какие инструменты вы используете для визуализации данных?
  4. Как вы объясняете аудитории, что корреляция ≠ причинно-следственная связь?
  5. Как вы адаптируете один набор данных под разные платформы (статья, соцсети, видео)?

Компетенции PROMPT инженера

PROMPT инженер формулирует максимально точные запросы к различным языковым моделям ИИ, чтобы получить максимально корректный ответ.

Зоны ответственности в архитектуре данных

Основы работы с генеративным ИИ

  • Понимание архитектуры LLM (трансформеры, контекстное окно, токенизация).
  • Знание различий между моделями (GPT-4, Claude, Mistral, локальные модели).
  • Основы fine-tuning и RAG (Retrieval-Augmented Generation).

Навыки проектирования PROMPT-запросов

  • Умение формулировать структурированные PROMT запросы (Chain-of-Thought, Few-Shot, Zero-Shot).
  • Оптимизация PROMT запроса под задачи:
    • Креативные (генерация текста, сценариев).
    • Аналитические (суммаризация, классификация).
    • Технические (генерация кода, SQL-запросов).
  • Работа с контекстом и системными PROMT запросами (ролевые модели, ограничения).
  • Работа с метриками оценки: точность, релевантность, креативность.
  • Работа с инструменты: A/B-тестирование PROMT запросов, логирование результатов.
  • Выявление и исправление bias (предвзятости) в ответах.
  • Работа с API LLM (OpenAI, Anthropic, Mistral).
  • Использование фреймворков для управления PROMT запросами:
    • LangChainLlamaIndex — для сложных цепочек запросов.
    • Semantic Kernel — интеграция с enterprise-системами.
  • Базовые навыки Python для автоматизации (Jupyter Notebook, скрипты).

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение плотно работать с различными LLM моделями (DeepSeek, ChatGPT, GigaChat) и обобщать полученные результаты, фильтруя «галлюцинации» нейросетей
  • Расчет стоимости PROMT запросов (токены, цена API).
  • Снижение издержек: сжатие PROMT запросов, кэширование ответов.
  • Ведение PROMT-библиотек (шаблоны для частых задач).
  • Создание инструкций для пользователей (как правильно задавать вопросы).
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как вы проектируете эффективный PROMT для сложной задачи?
  2. Как вы измеряете качество ответов LLM? Какие метрики используете?
  3. Как вы оптимизируете PROMT для уменьшения токенов без потери качества?
  4. Как вы обрабатываете edge-cases (непредвиденные ответы модели)?
  5. Как вы интегрируете LLM в существующий продукт (например, чат-бот)?

Компетенции MLOps инженера

MLOps инженер занимается автоматизацией и мониторингом управления моделями машинного обучения и глубокого обучения

Зоны ответственности в архитектуре данных

Основы Машинного Обучения

  • Понимание типов задач Машинного Обучения: классификация, регрессия, кластеризация.
  • Знание метрик качества моделей (Accuracy, Precision, Recall, F1, ROC-AUC, MSE).
  • Базовые навыки работы с фреймворками в Python: Scikit-learn, TensorFlow, PyTorch, XGBoost.

Работа с цифровыми данными и middleware слоем

  • Умение и знание как подготовить фичи (атрибуты) (Feature Engineering) и работать с пайплайнами данных.
  • Умение и знание как работать с Python: Pandas, PySpark.
  • Умение и знание как интегрироваться с хранилищами данных (S3, HDFS, SQL/NoSQL БД).
  • Умение и знание как развернуть и осуществлять поддержку Feature Catalog
  • Умение и знание как развернуть и осуществлять поддержку векторных баз данных
  • Умение и знание как осуществлять поддержку и ведение версий моделей ML / AI: MLflow, DVC (Data Version Control).
  • Умение и знание как работать с цифровыми данными: Delta Lake, DVC.
  • Умение и знание как настроить CI/CD процессы для обучения, переобучения, развертывания моделей ML / AI.
  • Умение и знание как упаковать модели ML / AI в Docker-контейнеры / Kubernetes pods.
  • Умение и знание как работать и интерпретировать метрики моделей: Prometheus + Grafana, MLflow Tracking.
  • Умение и знание как управлять ресурсами (GPU/CPU) в Kubernetes
  • Знание и умение настройки балансировки нагрузки: A/B-тесты, Canary-развертывания.
  • Умение и знание как развернуть и осуществлять поддержку ML инфраструктуры: Terraform, Ansible, Puppet.
  • Умение и знание как управлять конфигурациями моделями ML инфраструктуры
  • Умение и знание как настроить и осуществить интеграции компонент AutoML (автоматизированного Машинного Обучения)

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как вы развертываете ML-модель в промышленную среду? Опишите ваш подход.
  2. Как вы мониторите дрейф данных (Data Drift) и концептуальный дрейф (Concept Drift)?
  3. Как вы организуете CI/CD для ML/AI-пайплайнов?
  4. Как вы оптимизируете инференс-модели для снижения затрат?
  5. Как вы обеспечиваете воспроизводимость экспериментов?

Компетенции DS инженера

DS инженер создает цифровые продукты на основе ИИ.  Использует навыки глубокого анализа данных,  строит модели машинного обучения и глубокого ИИ

Зоны ответственности в архитектуре данных

Глубокий анализ данных

  • Умение и знание как работать с структурированными данными (Excel — таблицы, SQL-базы данных).
  • Глубокое понимание типов данных: числовые (непрерывные, дискретные), категориальные (номинальные, порядковые), временные ряды.
  • Глубокое понимание математической статистики, теории вероятности, линейной алгебры
  • Умение и знание как формулировать и тестировать гипотезы (H0, H1)

Работа с цифровыми данными

  • Умение и знание как работать с ETL/ELT-пайплайнами: Apache Airflow, Luigi, Dagster.
  • Умение и знание как создавать ML/AI агентов и ботов
  • Умение и знание как обрабатывать большие данные: Pandas, PySpark, .
  • Умение и знание как работать с хранилищами данных: SQL, NoSQL, MPP системы, графовые и векторные базы данных.
  • Умение и знание как работать с языками программирования: Python (основной), SQL, Scala/Java (для Spark).
  • Умение и знание как создавать и анализировать прототипирование: Jupyter Notebook / Apache Zeppelin → Финальный-код (ООП, модульные тесты).
  • Умение и знание как создавать API для моделей: FastAPI, Flask, gRPC.
  • Умение и знание как работать с контейнеризацией: Docker, управление зависимостями (poetry, conda).
  • Умение и знание как работать с ускорением инференса: Квантование, ONNX Runtime, Triton Inference Server.
  • Умение и знание как управлять ресурсами: Оптимизация CPU/GPU/TPU, автоскейлинг.
  • Умение и знание как работать с Feature Stores: Feast, Hopsworks.
  • Умение и знание как создавать версии моделей ML/AI: MLflow, DVC, Weights & Biases.
  • Знание как развертывать модель в промышленную эксплуатацию ML/AI: Kubernetes, AWS SageMaker, GCP Vertex AI.
  • Умение и знание как настраивать мониторинг за моделями ML/AI: Evidently, Prometheus, Grafana.
  • Умение и знание работы с CI/CD процессом: GitHub Actions, GitLab CI/CD, тестирование моделей (pytest).

Алгоритмы Data Science и Machine Learning

  • Строгое знание и умение работать с алгоритмами ML / AI: Регрессия, классификация, кластеризация, ансамбли (XGBoost, LightGBM)
  • Строгое знание и умение использовать разные нейросетевые архитектуры под конкретные типы задач (CNN, RNN, Transformers).
  • Строгое знание и умение интерпретации метрик качества: Accuracy, Precision, Recall, F1, ROC-AUC, MSE, MAE.
  • Строгое знание и умение интерпретации моделей ML/AI: SHAP, LIME, Feature Importance.
  • Строгое знание и умение в оптимизации ML/AI : Подбор гиперпараметров, кросс-валидация.

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML
  • Умение переводить бизнес-вопросы в технические гипотезы с последующим подтверждением / опровержением / уточнением
  • Умение объяснять результаты работы сервисов на основании ML/AI алгоритмов не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как вы оптимизируете feature engineering для большой таблицы с 1000+ колонок?
  2. Как уменьшить размер NLP-модели без потери качества?
  3. Как вы реализуете A/B-тестирование для новой ML-модели?
  4. Как вы обрабатываете категориальные признаки в датасете с 100+ уникальными значениями?
  5. Как вы ускоряете обучение модели на больших данных (1TB+)?
  6. Как вы обрабатываете пропуски в данных, если 30% значений отсутствует?

Компетенции Архитектора Данных

Архитектор данных проектирует / адаптирует архитектуру данных на основании рисков, бизнес-требований, безопасности и регламентирует управление цифровыми данными

Зоны ответственности в архитектуре данных

Проектирование архитектуры данных

  • Глубокое умение и знание как разработать стратегии данных (Data Strategy) в соответствии с бизнес-целями.
  • Глубокое умение и знание как сделать выбор оптимальных моделей хранения:
    • Реляционные (OLTP: PostgreSQL, MySQL).
    • Колоночные (OLAP: ClickHouse).
    • NoSQL (MongoDB, Cassandra, Elasticsearch).
    • Data Lakes (Delta Lake, Iceberg) и Lakehouse.
  • Глубокое умение и знание как проектировать логические слои данных (raw, staging, curated, mart).
  • Глубокое умение и знание как работать с виртуализацией / материализацией данных
  • Глубокое умение и знание как проектировать модель данных на основании бизнес требований
  • Глубокое умение и знание как работает архитектура обработки больших данных
  • Глубокое умение и знание как оптимизировать стоимость и производительность (партиционирование, шардирование).
  • Глубокое умение и знание как описать и предложить технический контракт данных для потребителя
  • Глубокое умение и знание как работать с облачными платформами и гибридными решениями.
  • Глубокое умение и знание как разрабатывать и внедрять стандарты именования, метаданные и метрики качества данных.
  • Глубокое умение и знание как реализовывать Data Lineage (родословная данных).
  • Глубокое умение и знание как проектировать датапайплайны (Airflow, Dagster, dbt).
  • Глубокое умение и знание как реализовать CDC (Change Data Capture) и репликацию.
  • Глубокое умение и знание как оптимизировать загрузки и трансформации (инкрементальная / полная).

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
  • Умение объяснять цифровые данные и демонстрировать информацию не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как бы вы спроектировали Платформу Данных для компании с 50+ источниками данных?
  2. Какие критерии вы используете при выборе между Data Lake и Data Warehouse?
  3. Как реализовать Data Lineage для 1000+ таблиц?
  4. Как обеспечить согласованность данных при работе с микросервисами?
  5. Как масштабировать систему при росте данных на порядок?
  6. Что такое идемпотентность данных? Приведите примеры

Компетенции Архитектора ML / AI

Архитектор ML/AI проектирует / адаптирует архитектуру ML и AI на основании рисков, бизнес-требований, безопасности и регламентирует управление продуктами машинного обучения 

Зоны ответственности в архитектуре данных

Проектирование ML/AI-систем

  • Глубокое умение и знание как применять архитектурные паттерны для ML:
    • Микросервисы или монолит
    • Offline- и online-инференс (синхронный/асинхронный).
    • Edge AI (развёртывание на устройствах).
  • Глубокое умение и знание как выбирать стек технологий под задачу:
    • Фреймворки: TensorFlow, PyTorch, ONNX, Hugging Face.
    • Инфраструктура: Kubernetes, Ray, Seldon Core.
  • Глубокое умение и знание как производить расчёт ресурсов: GPU/TPU, CPU, память, сетевые задержки.
  • Глубокое умение и знание как проектировать Feature Stores (Feast, Hopsworks).
  • Глубокое умение и знание как оптимизировать пайплайны данных для обучения (Apache Beam, Spark).
  • Глубокое умение и знание как сконфигурировать CI/CD для ML:
    • Тестирование моделей (pytest, Great Expectations).
    • Автоматическое переобучение при дрейфе данных.
  • Глубокое умение и знание как анализировать и объяснять метрики мониторинга :
    • Метрики моделей (accuracy, latency, drift).
    • Инструменты: Prometheus, Evidently, WhyLabs.
  • Глубокое умение и знание какую применять стратегию развертывания моделей: A/B-тесты, Canary-релизы, Shadow Mode.
  • Глубокое умение и знание как ускорять инференс: Квантование, дистилляция, pruning
  • Глубокое умение и знание как управлять стоимостями владения: автомасштабирование, выбор облачных сервисов
  • Глубокое умение и знание как работать с генеративным AI. Оптимизация LLM (LoRA, Quantization). RAG-архитектуры (векторные БД + поиск).
  • Глубокое умение и знание как проводить интеграцию ML-моделей в промышленную среду (Seldon, MLflow, Kubeflow).
  • Глубокое умение и знание как проектировать и использовать Feature Stores (Feast, Hopsworks).

Работа с требованиями и процессами разработки

  • Отличное знание стандартов создания цифровых продуктов и анализа данных: CRISP/DM, CRISP/ML, EDA
  • Умение переводить бизнес-вопросы в аналитические задачи для команды разработки
  • Умение объяснять результаты работы сервисов на основании ML/AI алгоритмов не-техническим специалистам.
  • Умение работать с основными командами командной разработки: репозиториями (Git, GitLab)

Примеры вопросов на собеседовании

  1. Как бы вы спроектировали систему для рекомендаций в реальном времени в приложении с 10M пользователей?
  2. Какие стратегии развертывания вы выберете для бизнес-критической ML-модели (например, кредитный скоринг)?
  3. Как обеспечить конфиденциальность данных при обучении federated learning?
  4. Как масштабировать инференс LLM с 1K до 1M RPS?
  5. Как интегрировать ML-модель в legacy-систему на Java?