Как сделать мощную аналитику рынка на инсайтах и открытых данных
Привет! Меня зовут Миша Козюлин, я основатель консалтинговой компании Hints. Раньше я занимался исследованиями и стратегией в Skyeng, а сейчас развиваю свой бизнес и помогаю разным компаниям принимать решения на основе данных.

Один из наших любимых клиентов — Яндекс.Практикум. В августе 2021 года мы провели для них небольшое, но красивое исследование. Хочу рассказать о нём.
В чем задача
Практикум — большой и известный образовательный сервис, который активно растет. Но расти лучше в направлениях, в которых больше всего денег (учитывая направление работы, конечно). Какие курсы запускать в первую очередь, чтобы окупить их и быстрее нарастить выручку? Полезно посмотреть на то, какие курсы приносят больше денег конкурентам.

Практикум обратился к нам, чтобы мы сделали анализ рынка. Важно было понять объем выручки в разрезе каждой отдельной профессии, для начала сфокусировавшись на больших онлайн игроках. Понятно, что таких цифр в открытом доступе нет — но есть гипотеза, что мы можем добыть и проверить их.

Подготовка
Сперва мы детально посмотрели всех конкурентов и специфику онлайн-образования.

У Практикума, Скиллбокса, Нетологии и других игроков обычно есть курсы, а есть — профессии. Курсы стоят недорого и предназначены для прокачки конкретных навыков (например, курс сервисной редактуры для копирайтеров). А профессии — сложные, дорогие и долгие, помогают «под ключ» получить профессию с нуля, часто пересекаются с курсами и состоят из них (например, «Станьте дата-сайентистом за 1,5 года»). Это разные продукты с разным масштабом выручки.

Поговорив с представителями рынка, мы поняли, что основной доход компаниям приносят профессии. Поэтому мы решили сосредоточиться именно на них.

Далее мы спарсили все курсы с сайтов компаний. Чтобы сопоставить профессии разных игроков друг с другом, мы даже составили единый словарик. Потому что одни и те же профессии могут по-разному называться в разных сервисах. Из примерно 500 наименований мы пришли к 94, которые пересекаются у топ-10 игроков, которых мы и хотим проанализировать.

Первая итерация — Атрибуция
Наша задача — понять, сколько денег суммарно генерирует каждая профессия для всех крупных игроков рынка. Грубо говоря, сколько рынок зарабатывает на обучении Python-специалистов, а сколько — на дата-сайентистах.

Но чтобы понять это, нужно понять выручку по каждой профессии в каждой компании. Общая выручка игроков в основном есть в общем доступе (а где её нет, мы выясняли своими способами). Чтобы правильно атрибуцировать ее к профессиям, мы написали модель на Python.

На входе модель получает полезные факторы, на выходе пытается предсказать выручку по направлениям. Среди факторов, которые мы рассматривали, были:

  • Поисковые запросы на Wordstat. Чем больше спрос на обучение интернет-маркетингу у потенциальных учеников, тем, очевидно, больше запросов в сети.

  • Количество курсов. Если компания запускает несколько курсов с похожими названиями, то мы учитывали это с помощью поправочного коэффициента.

  • Цена курсов.
И другие параметры тоже. В результате наша матмодель вычленила доли, которые занимают отдельные профессии в выручке компании. Но мы не понимали пока, насколько точно она это делает, и решили проверить результаты с помощью инсайдов.

Вторая итерация — инсайды
Вторая итерация — инсайды
Лучший способ понять, сколько зарабатывают конкуренты — спросить конкурентов. И конкурентов конкурентов. Это довольно простой и эффективный способ, в котором, однако, есть свои тонкости.

Мы любим собирать инсайды и неплохо делаем это. Важно заниматься сбором информации честно, открыто, взаимовыгодно. Вот так — не надо:

— Привет. Лёш, мы тут готовим одно исследование. Подскажи, какая у вас выручка по профессии «Дата-сайентист»?
— Миша, ты чё, заболел? Не пиши мне больше.

Лучше сперва сходить к Вите:

— Витя, привет. Как ты думаешь, какой LTV у Лёши по по профессии «Дата-сайентист»?
— Не знаю, предполагаю что в районе 100-120 тыс ₽.

А после можно сходить к Лёше:

— Лёш, слушай, а правильно я понимаю, что LTV по профессии «Дата-сайенс» в районе 100 тыс ₽? Это правда?
— Не могу сказать.
— Ну, у вас того же порядка, или сильно больше?
— Да, похоже.
— Больше или меньше?
— Ну чего ты пристал? Побольше, немного побольше. Хотелось бы еще больше, но и так ок.

Всё это, конечно, утрированные примеры, но они показывают общий подход (на самом деле мы общаемся, конечно, не так навязчиво и аккуратнее задаем вопросы).

Скрупулезно общаясь с людьми, можно собрать много полезных данных прямо в цифрах: выручку компании, выручку по различным направлениям, в нашем случае — по отдельным курсам и профессиями. Это не рокет сайенс, заниматься таким может любой человек, достаточно просто уметь разговаривать и быть вежливыми.

Мы умеем делать это неплохо, потому что знаем людей на рынке и в целом набили руку: умеем быть настойчивыми и аккуратными.

Но тут появилась проблема. Результаты нашей модели не бились с инсайдами. Совсем. Дело в том, что модель опиралась скорее на внешние показатели спроса, и ей не хватало «внутрянки», бизнесовых показателей. Исторически разные компании фокусировались на разных направлениях (например, Geekbrains — на программировании, Skillbox — на дизайне и маркетинге, и так далее). Модель видит все профессии на сайте и не понимает, какие являются флагманами.

Мы могли вручную исправить точечные значения по полученным инсайдам, и даже переобучить модель на них — но это было бы костыльное одноразовое решение, а мы хотели получить инструмент для регулярного апдейта.
Поэтому мы сели думать, какие же общедоступные показатели взять, чтобы учесть внутренний фокус компании на тех или иных профессиях.


Третья итерация — Реклама
Побрейнштормили и поняли, где взять точные данные — интернет-реклама. Залезли в Рекламный кабинет Facebook и поняли, что рекламный трафик напрямую может быть связан с «деньгами» в курсах: рекламируют то, что приносит больше всего выручки. Начали копать в этом направлении.

Однако в Facebook нет численных показателей, поэтому в итоге взяли поисковый трафик из гугла и яндекса.

Распарсили страницы курсов и связали их с трафиком. Для модели мы использовали и рекламный трафик, и поисковый органический, и цену курса.

Нам повезло, что обычно каждый курс живет на своей отдельной странице, и значит мы можем смёржить трафик по конкретному ключевому слову с урлом страницы из парсинга сайтов. Чем мы и занялись — переобучив модель на новых данных.

Модель дала новые данные, которые отлично соотносились как с данными Практикума, так и с инсайдами других игроков. Бинго!

Агрегированные результаты аналитики: выручка профессий по направлениям, ранрейт на август 2021 Hints
Дополнительная итерация — Обогащение
Решили улучшить модель, обогатив ее данными с hh.ru. Мы распарсили навыки, которые указываются в описании профессий. В результате не только показали, в каких направлениях работать, но и какие конкретные навыки важно качать в каждом курсе. Это важная зацепка для методологов Практикума.


Пример обогащения данными с НН: какие скиллы с какой частотой встречаются в вакансиях по профессии product manager
Работали мы над этим всего чуть больше месяца. Итерационно двигались вперед, а после собрали всё в большой отчёт и обновляемые таблицы. Финальный скоринг сделали с учетом рынка, потенциала, сложности запуска и соответствия бренду.

Коллеги из Практикума были очень довольны — наши результаты здорово повлияют на их экспансию в 2022 году. Ну а мы продолжаем работать сразу по несколькими новым направлениями, в России и за рубежом.


Вместо итогов
Подобную задачу может делать каждый уважающий себя директор по маркетингу (сам или с нашей помощью). Дам пару советов:

  • Развивайте нетворк, знакомьтесь с конкурентами: в соцсетях, на конференциях, лично.

  • Обменивайтесь информацией. Не обязательно выносить что-то из-под NDA, вам и им ничего не мешает комментировать новости и ваши данные, делиться новостями. Мы не только конкуренты, но и коллеги по рынку. Мы двигаем весь рынок вперед, и для этого важно делиться информацией.

  • Всегда проверяйте несколько гипотез. Делайте 3 подхода к станку, отбраковывайте данные, которые дают слишком большое отклонение.

  • Развивайте в команде навыки маркетинговых исследований. Нанимайте исследователей в штат и привлекайте внешних консультантов.

  • Принимайте больше решений на данных. Ребята, которые известны на рынке, живут на данных — этому полезно научиться.



Читайте также: