Каталог ≠ метрики
OpenMetadata описывает структуру таблиц и колонок. Сами метрики живут в Athena и считаются запросами.
Меморандум · v1.0 · апрель 2026
Фундамент данных TrueMind близок к рабочему. Поведение, платежи и игровая активность собираются и доступны через Athena. Стратегические ответы по росту требуют нормализованной атрибуции, чистого гео, причин отказа платежей, контекста релизов и таксономии фич.
01 · Executive summary
OpenMetadata описывает структуру таблиц и колонок. Сами метрики живут в Athena и считаются запросами.
PostHog-события, заказы/платежи, агрегатор ставок и сводка по игроку. Достаточно, чтобы строить воронки и когорты.
Атрибуция, чистое гео, причины отказа платежей, контекст релизов и таксономия фич — без них стратегические ответы будут шаткими.
Никаких выводов по Reg2Dep без сегментации geo × aff_id. Микс аффилиатов искажает агрегаты.
02 · Data map
От описания структуры до ответа на бизнес-вопрос — четыре шага.
Каталог таблиц, колонок, владельцев. Используется для дискавери и проверки схемы.
Источник правды для метрик: события, заказы, ставки, агрегаты по игроку.
Воронки, когорты, драйверы, churn-фичи, разложение выручки.
Меморандумы, дашборды, гипотезы для экспериментов.
03 · Источники данных
Фронтовые события: клики, экраны, формы. Часовая и дневная агрегации.
eventtimestampbrand_iduser_id · person_idpropertiesТакже: posthog_events_hourly, posthog_events_daily.
Платёжные операции: депозиты, выводы, статусы.
type_orderstatusamount_eur · currency_codebrand_pay_system_iduser_idТакже: orders_hourly.
Транзакции ставок и выигрышей по сессиям и играм.
amount_eurgame_id · session_idaction · statusТакже: aggregator_requests_hourly.
Профиль игрока, готовый к когортному анализу.
total_sessionsdistinct_gamestotal_bet · total_winlast_activity_at04 · Матрица ответимости
Статусы: да — отвечается на текущих данных, частично — нужны допущения и сегментация, блок — без новых параметров вывод недостоверен.
| № | Вопрос | Статус | Что нужно сверх текущих данных |
|---|---|---|---|
| 1 | Факторы Click → FTD | частично | Чистая таксономия событий, aff_id, гео. |
| 2 | Паттерны пути до депозита | да | — |
| 3 | Платящие vs неплатящие | да | — |
| 4 | Драйверы выручки | частично | GGR / NGR, бонусы, fee, рефанды. |
| 5 | Действия, коррелирующие с FTD | да | — |
| 6 | Причины падения Reg2Dep | частично | Коды ошибок платежей, причины отказа, гео × aff_id. |
| 7 | Причины падения Click2Reg | частично | Источник трафика, лендинг, ошибки валидации. |
| 8 | Точки роста в воронке | частично | Чистая таксономия шагов и сегментация. |
| 9 | Эффект релизов | блок | release_id, feature_flag_*, тайминги деплоя. |
| 10 | Сегменты с высоким LTV | частично | NGR, бонус-кост, lifecycle-метки. |
| 11 | Самые ценные пользователи | частично | Прибыльность, fraud_loss, chargebacks. |
| 12 | Сигналы churn | частично | Метки churn_status, окна неактивности, CRM-кампании. |
| 13 | Различия по гео | блок | Чистый country_code, регистрационная и IP-страна, локаль. |
| 14 | Ценность фич продукта | блок | Таксономия фич: exposure / click / success / error / version. |
| 15 | 3 главных инсайта роста | частично | Сводный вывод после закрытия P0-пробелов. |
05 · Исходный запрос
Полный список из 15 формулировок, полученных на вход — без редактуры.
Проанализируй, какие факторы сильнее всего влияют на конверсию Click → FTD.
Найди поведенческие паттерны пользователей, которые доходят до депозита.
Сравни поведение платящих и неплатящих пользователей.
Определи ключевые драйверы роста выручки в продукте.
Найди действия, которые максимально коррелируют с FTD.
Определи основные причины падения Reg2Dep.
Определи основные причины падения Click2Reg.
Найди точки роста в воронке.
Определи, какие изменения после релиза повлияли на метрики.
Найди сегменты пользователей с самым высоким LTV.
Определи, какие пользователи приносят наибольшую ценность.
Найди поведенческие сигналы, предсказывающие churn.
Проанализируй различия поведения по гео.
Определи, какие функции продукта дают максимальную ценность.
Сформулируй 3 главных инсайта для роста продукта.
06 · Пробелы данных
Сгруппировано по приоритету. P0 закрывает большинство стратегических вопросов.
aff_id, affiliate_namecampaign_id, utm_source/medium/campaign/content/termclick_id, sub_idtraffic_source, landing_page_idcountry_code, country_nameregistration_country, ip_country, kyc_countrylocale, timezonepayment_error_code, provider_error_codeprovider_name, payment_methodfailure_stage, attempt_idrelease_id, release_timestampfeature_flag_name, feature_flag_variantexperiment_id, experiment_groupnet_marginbonus_cost, cashback_cost, payment_feechargebacks, refunds, fraud_lossregistration_date, first_deposit_date, last_deposit_dateuser_status, kyc_status, risk_status, vip_status, churn_statuscrm_campaign_id, бонусные офферыdevice_type, os, browserapp_version, web_version, screen_sizedomain, pathname, referrersession_id, session_start/end, session_durationevents_per_sessionentry_page, exit_page, is_bounced, logged_in_state07 · Toolkit
Минимально достаточный набор Python-модулей для повторяемого анализа.
truemind_growth_analysis/
├── config.yaml
├── athena_client.py
├── metadata_discovery.py
├── event_dictionary.py
├── funnel_builder.py
├── segment_extractor.py
├── cohort_builder.py
├── driver_analysis.py
├── sequence_mining.py
├── revenue_decomposition.py
├── churn_features.py
└── report_generator.py
08 · Усилия и сроки
3–5 ч
Подтверждение источников, базовая воронка, перечень слепых зон.
≈ 1 раб. день
Все 15 вопросов для одного бренда и периода в текущей полноте данных.
1.5–2 дня
С валидацией, исключением грязи, сегментацией geo × aff_id, проверкой релизов, LTV и churn.
09 · Guardrails
Минимум — geo × aff_id. Микс аффилиатов и стран маскирует реальные провалы и завышает кажущиеся улучшения.
Сравнения «до / после» без release_id и feature_flag_variant подвержены сезонности и кампанийному шуму.
Без бонус-коста, fee и chargeback цифры будут систематически завышены.
10 · Рекомендация
release_id, feature_flag_*. Это снимает блок с вопроса №9 и усиливает №8.