Анализ данных  •  15 ноября  2022  •  5 мин чтения

Как пересечение и объединение множеств используются в анализе данных

В основе анализа данных лежат операции над множествами. Самые простые из них — пересечение и объединение. Повторим, что это за операции и какие у них есть свойства.

Что такое пересечение множеств

Пересечение AB двух множеств A и B состоит из элементов, которые принадлежат обоим исходным множествам.
В пересечение попадут лишь те элементы, которые есть и в A, и в B одновременно
Пересечение двух множеств также является множеством. Если нет элементов, которые принадлежат обоим множествам сразу, то пересечение множеств будет пустым: A ∩ B = ∅.
Примеры пересечения множеств

● Если H — множество упражнений, укрепляющих руки, и L — множество упражнений, укрепляющих ноги, то H ∩ L — множество упражнений, укрепляющих руки и ноги.

● Если A — множество яблок и G — множество зелёных предметов, то A ∩ G — множество зелёных яблок.

● Если E — множество песен на английском языке и J — множество песен Дженнифер Лопес, то E ∩ J — множество песен Дженнифер Лопес на английском языке.

В математике главное — практика. Поэтому знание правил лучше закреплять решением задач. Сделать это можно на курсе «Математика для анализа данных». На нём вы сможете решить больше 1000 практических задач.

Что такое объединение множеств

Объединение A ∪ B состоит из всех элементов исходных множеств A и B вместе. То есть в объединение попадут вообще все элементы, которые были хотя бы в одном из исходных множеств.
Все элементы объединения есть или в множестве A, или в множестве B
В объединение входят все элементы, которые встречались в множествах по отдельности, но только по одному разу. Если A = {100, 200, 300, 400, 500}, B = {100, 500, 1000, 1500}, то A ∪ B = {100, 200, 300, 400, 500, 1000, 1500}.
Примеры объединения множеств

● Если B — множество книг по здоровому питанию и A — множество статей по здоровому питанию, то B ∪ A — множество книг и статей по здоровому питанию.

● Если O — множество апельсинов и M — мандаринов, то O ∪ M — общее множество апельсинов и мандаринов вместе.

● Если F — множество уроков с первого по пятый и L — множество уроков с третьего по шестой, то F ∪ L — множество уроков с первого по шестой.

Так выглядят варианты взаимного расположения множеств при объединении
С тремя множествами всё то же самое: в их объединении A ∪ B ∪ C будет внутренняя часть всех трёх кругов.
Материал по теме:
Совместные и несовместные события в анализе данных

Пересечение и объединение множеств в анализе данных

Набор данных — это множество. Операции пересечения и объединения — самые базовые из возможных операций над данными. Для примера возьмём два множества: первое — клиентов, звонивших в колл-центр, второе — клиентов, писавших в чат. Найти клиентов, которые и звонили в колл-центр, и писали в чат — это пересечение. Собрать базу клиентов, которые обращались через любой из этих каналов, — объединение.

Операции пересечения и объединения используются во всех языках программирования. В том числе в тех, которые чаще всего применяют аналитики. Например, в SQL операции пересечения множеств соответствует оператор INTERSECT, а операции объединения — UNION. В Python эти операции называются intersection и union.

В SQL для объединения таблиц также используют оператор JOIN, но у него другие свойства. Операции объединения множеств полностью соответствует UNION: этот оператор соединяет таблицы, но оставляет только уникальные значения.

А что со свойствами? Коммутативность, ассоциативность, дистрибутивность — эти свойства операций над множествами используются и в языках программирования. Когда аналитик понимает, как взаимодействуют множества, он быстрее решает связанные с ними рабочие задачи и делает меньше ошибок.

Свойства пересечения и объединения множеств

Операции над множествами, как и действия с числами, обладают рядом свойств. Пересечение можно соотнести с умножением, а объединение — со сложением. Тогда получатся свойства, знакомые со школы.

Повторить свойства пересечения и объединения множеств можно в модуле «Множества» тренажёра «Основы математики для цифровых профессий». В нём есть и другие уроки из темы «Множества»:

● Разность множеств.

● Мощность. Правила суммы и произведения.

● Формула включений-исключений.

Они помогут аналитику данных разобраться в операциях, где нужно фильтровать, группировать, сортировать и обсчитывать данные. Это базовый навык для работы, его часто проверяют на собеседованиях. Знание теории множеств помогает освоить теорию вероятностей и статистику, разобраться в операции Except и научиться без ошибок определять размер объединяемых дата-сетов.

Свойство коммутативности: вне зависимости от порядка множеств элементы их пересечения и объединения неизменны.

A ∩ B = B ∩ A
A ∪ B = B ∪ A

Очень похоже на коммутативность сложения и умножения: a • b = b • a; a + b = b + a. Как в знакомых правилах: «от перестановки множителей произведение не меняется» и «от перестановки слагаемых сумма не меняется»
Свойство ассоциативности: если множеств три, можно найти пересечение для двух из них, а потом добавить третье. С каких двух множеств начинать, не имеет значения. A ∩ (B ∩ C) = (A ∩ B) ∩ С
Свойство ассоциативности можно проиллюстрировать с помощью диаграмм
Аналогично с объединением: A ∪ (B ∪ C)=(A ∪ B) ∪ C
Объединение множеств на диаграммах
То же свойство в числовом виде: a • (b • c) = (a • b) • c; a + (b + c) = (a + b) + c.

Свойства пересечения и объединения для пустого множества: при пересечении любого множества с пустым получается пустое множество, при объединении — исходное множество.

A ∩ ∅ = ∅ A ∪ ∅ = A

По аналогии с действиями с нулём: a • 0 = 0; a + 0 = a
А ещё есть свойства, которые задействуют сразу две операции.

Дистрибутивность пересечения относительно объединения. Чтобы пересечь A с объединением B ∪ C, можно пересечь A ∩ B и A ∩ C, а потом найти объединение получившихся множеств.

A ∩ (B ∪ C) = (A ∩ B) ∪ (A ∩ C)

Диаграмма в общем виде
И снова похоже на свойство дистрибутивности для чисел: a(b+c)=ab+ac.

Дистрибутивность объединения относительно пересечения. Чтобы объединить A с пересечением B ∩ C, можно объединить A ∪ B и A ∪ C, а потом найти пересечение этих множеств.

A ∪ (B ∩ C) = (A ∪ B) ∩ (A ∪ C)

То же самое верно в общем виде
Здесь уже не провести аналогию с числами. Это свойство уникально и работает только для множеств. Если взять числа a, b, c, то выражение a + (b • c) = (a + b) • (a + c) будет неверным.

Пример. Найдём элементы множества C ∪ (A ∩ B) по диаграмме.

Решение. Закрасим пересечение A ∩ B, а потом добавим к нему множество C.
Ответ: Во множество C ∪ (A ∩ B) входят элементы 1, 2, 5, 13, 26, 52.

Объединение и пересечение нескольких множеств, заданных общим свойством

Если множества заданы общим свойством, их пересечение и объединение также можно найти.

Пример.

Пусть R — множество чисел из первой сотни, кратных 30;
D — множество чётных чисел от 85 до 100;
E — множество двузначных чисел, кратных 10.

Найдём элементы множества (R ∪ D) ∩ E.

Решение. Используем свойство дистрибутивности: (R ∪ D) ∩ E = (R ∩ E) ∪ ( D ∩ E).

В пересечении R ∩ E будут числа, которые делятся и на 10, и на 30. Число 30 делится на 10, значит, R ⊆ E, тогда R ∩ E=R.

В пересечении D ∩ E будут двузначные чётные числа от 85 до 100, которые делятся на 10. Такое число одно — 90.

D ∩ E = {90}.

В объединении R ∪ (D ∩ E) будут кратные 30 числа первой сотни или число 90.

Число 90 является одним из кратных 30, значит, R ∪ (D ∩ E) = R.

R = {30, 60, 90}.

И ещё один пример.

Возьмём те же три множества и добавим к ним одно новое:
R — множество чисел из первой сотни, кратных 30;
D — множество чётных чисел от 85 до 100;
E — множество двузначных чисел, кратных 10;
P — множество простых чисел от 70 до 99.

Теперь найдём элементы множества (R ∩ D) ∪ (E ∩ P).

Решение. Тут подойдёт только решение по действиям.

  1. В пересечении R ∩ D будут числа, кратные 30, которые находятся в промежутке от 85 до 100. Это только число 90. R ∩ D = 90.

  2. В пересечении E ∩ P будут простые числа от 70 до 99, которые делятся на 10. Таких чисел нет, значит, E ∩ P = ∅.

  3. При объединении любого множества с пустым получается исходное множество. (R ∩ D) ∪ ∅ =R ∩ D.

Совет эксперта

Полина Нестеренко
Математика может пугать строгостью формулировок и странными значками. На самом деле, это алфавит, который делает записи понятными для всех, кто его знает. Соседи по лифту — пересечение жителей разных этажей, а пассажиры автобуса — объединение людей, которые сели на разных остановках. Просто нужно переводить свойства на язык примеров, искать их вокруг себя и использовать математику как способ записать это коротко и понятно.

Статью подготовили:

Полина Нестеренко
Яндекс Практикум
Преподаватель математики
Виктория Федосеенко
Яндекс Практикум
Редактор

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться

Успейте начать учебу в Практикуме до конца ноября со скидкой 20%

Fri Nov 15 2024 14:18:46 GMT+0300 (Moscow Standard Time)