Анализ данных  •  14 декабря  2022  •  5 мин чтения

Совместные и несовместные события в анализе данных

Аналитики применяют теорию вероятностей, чтобы предсказать развитие бизнеса. Результат расчётов зависит от того, как взаимодействуют события между собой. Расскажем, какие виды событий есть и как посчитать их вероятность.

Термины, которые используются в статье

Пространство исходов — это множество всех исходов. Оно описывает все возможные варианты того, что может случиться в результате эксперимента. Обозначается буквой омега Ω.

Событие — это подмножество Ω, удовлетворяющее определённым условиям.
Например, «число очков на кубике чётное» — это событие.

Вероятность произвольного случайного события всегда принимает значения от 0 до 1, где 0 — событие невозможно, а 1 — событие точно произойдёт.
Материал по теме:
Анализ больших данных: зачем он нужен и кто им занимается

Противоположные события

Событие A̅ противоположно событию A, если состоит из тех исходов Ω, которых нет в A.
Из определения противоположных событий следуют два свойства:

● события А и A̅ и образуют всё пространство исходов,
● события А и A̅ не могут произойти одновременно.

Из двух событий А и A̅ наступить может только одно. При этом исходов в каждом событии может быть несколько.
Примеры:

● А = «на кубике выпало кратное 3 число» = {3, 6} и противоположное A̅ = «на кубике выпало не кратное 3 число» = {1, 2, 4, 5}
● A = «в задании с 5 попытками игрок сделал не меньше 3 попыток» = {0, 1, 2, 3} и противоположное «в задании с 5 попытками игрок сделал больше 3 попыток = {4, 5}.

Противоположные события — частный случай несовместных событий.

Несовместные события

Несовместные события похожи на противоположные — они тоже не могут произойти одновременно. Появление одного события исключает появление всех остальных, несовместных с ним. Но есть и важное отличие: несовместных событий может быть сколько угодно, не только два.

Пример. Оплатить покупку в онлайн-магазине можно несколькими способами: картой на сайте, наличными при получении, в рассрочку от магазина или в кредит от банка. Все способы доступны, но пользователь должен выбрать только один из них.

Для набора событий А1, А2, ... Аn это условие записывают так:

Аi ∩ Аj = Ø для всех

Пример. В некотором ресторане есть только четыре блюда дня: овощная грилата, суп из шампиньонов, салат по-мексикански и сэндвич с тунцом. И каждый день можно выбрать лишь одно из них. Исследователь, который постоянно заказывает еду из этого ресторана, хочет предсказать блюдо дня на завтра. На основе исторических данных он выяснил, что частота появления грилаты составляет ≈ 34%, супа ≈ 12%, салата ≈ 7%, а сэндвича ≈ 47%

На языке теории вероятностей это выглядит так:

● пространство исходов Ω = {грилата, суп, салат, сэндвич} ;
● P(грилата) = 0.34, Р(суп) = 0.12, Р(салат) = 0.07, Р(сэндвич) = 0.47.

В этом примере события образуют полную группу — набор несовместных событий, которые в объединении дают всё пространство исходов Ω.

Совместные события

События А и B называют совместными, если A ∩ B ≠ Ø .

Пример. Производитель корма провёл онлайн-опрос, чтобы узнать, какие питомцы живут у покупателей. Варианты ответа: собака, кошка, хомяк. У 65% есть собаки, 81% с кошками и 15% c хомячками. При этом у 52% респондентов есть и кошка, и собака, а у 9% — хомяк с собакой.

Совместные события, как и несовместные, необязательно дают в объединении всё пространство исходов Ω. В наборе из нескольких событий часть могут быть совместными друг другу, часть — несовместными.

Разные типы событий на диаграммах Эйлера.

Алгебра событий

Правило суммы для противоположных событий: вероятность объединения противоположных событий равна сумме их вероятностей, которая, в свою очередь, равна 1.

P(A) = 1 - P(A̅).

Правило суммы для несовместных событий: вероятность объединения несовместных событий равна сумме вероятностей каждого события.

P(A ∪ B) = P(A) + P(B)

Правило суммы для совместных событий: чтобы найти вероятность объединения двух совместных событий, нужно из суммы их вероятностей вычесть вероятность их пересечения.

P(A ∪ B) = P(A) + P(B) - P(A ∩ B)

Формула включений-исключений для трёх событий:

P(A ∪ B ∪ C ) = P(A) + P(B) +P(C) - P(A ∩ B) - P(A ∩ C) - P(B ∩ C) + P(A ∩ B ∩ С)

Узнать больше про формулу включений-исключений можно в модуле «Множества и логика» тренажёра «Основы математики для цифровых профессий».

Как использовать совместные и несовместные события в анализе данных

Пример. Поисковый сервис с равной вероятностью размещает рекламный баннер клиента слева от поисковой выдачи, справа или внутри неё. Нужно изучить, как работают алгоритмы. Чему равна вероятность, что из пяти поисковых запросов хотя бы в одном аналитик увидит рекламу слева от поисковой выдачи?

Решение. «Хотя бы один» — маркер того, что проще искать вероятность через обратное событие. Посчитаем вероятность противоположного события:

Тогда вероятность искомого события находится по формуле для противоположных событий:
Пример. Компания предлагает пользователям индивидуальную и семейную подписку на кино и музыку. Известно, что какая-либо подписка есть у 60% клиентов. Сколько клиентов компании не имеют никакой подписки?

Решение. Всех клиентов компании можно поделить на три группы:

● A — есть индивидуальная подписка;
● B — есть семейная подписка;
● C — нет подписки.

В совокупности они образуют полную группу событий. Тогда P(A) + P(B) + P(C) = 1.

Известно, что клиентов с подпиской 60%, то есть P(A ∪ B) = 0.6 = P(A) + P(B).
Подставляя в формулу выше, получаем P(C) = 0.4 = 40% клиентов без подписки.

Пример. Аналитик изучает источники трафика. В таблице данные по новым пользователям.

Источник трафика для каждой записи только один. context означает, что пользователь пришёл из контекстной рекламы; email — из рассылки на почту; источники None, other и undef не дают подробностей.

На основе этой таблицы аналитик прогнозирует вероятность источника, из которого придёт новый пользователь. Например, доля источника context равна

Это значение и принимают за вероятность. Какая вероятность того, что новый пользователь придёт из источников без подробностей (None, other и undef)?

Решение. Источник трафика может быть только один, поэтому события «пользователь пришёл из данного источника» несовместны. Вероятности можно сложить:

Эти задачи — примеры того, как аналитики применяют теорию вероятностей в своей работе.

В математике главное — практика. Поэтому знание правил лучше закреплять решением задач.

Совет эксперта

Евгений Григоренко
Учёные придумали рассматривать события, чтобы связать реальность с математикой и строго описать понятие вероятности. На самом деле событие — это математическое обозначение любого возможного явления, для которого интересно оценивать шансы. А/B-тесты не будут преградой, если тренироваться на простых задачах.

Статью подготовили:

Евгений Григоренко
Яндекс Практикум
Автор курса по математике
Ирина Бобринёва
Яндекс Практикум
Редактор

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться
Идеи новогодних подарков от нейросети + промокоды на курсы Практикума и акции от партнеров
Fri Nov 15 2024 14:05:18 GMT+0300 (Moscow Standard Time)