Групповой проект

Пратхамеш Прадип Датар | Пранджал Сондкар | Чживэй Ван | Нишит Накрани

ВВЕДЕНИЕ
Перед нашей командой была поставлена ​​задача помочь Southeast Airlines снизить отток клиентов. Нам предоставили набор данных, полученный в результате опроса клиентов, проведенного Southeast Airlines, который содержал данные о 10 282 рейсах, совершенных клиентами. В наборе данных было 32 переменные, одна из которых была вероятностью рекомендации, которая показывает, насколько вероятно, что клиент порекомендует авиакомпанию своим друзьям. Он оценивается по шкале от 1 до 10, где 10 - очень вероятно, а 1 - наименее вероятно. Этот атрибут был наиболее важным, поскольку чем больше клиентов рекомендовали эту авиакомпанию своим друзьям, тем больше у нее шансов сохранить существующих клиентов и, кроме того, привлечь больше клиентов. Мы начали с изучения набора данных, чтобы определить предположения и бизнес-вопросы.

БИЗНЕС-ВОПРОСЫ
1. Какие города входят в пятерку лучших и пятерку худших городов с точки зрения пункта назначения и города отправления?

2. Какая комбинация типов клиентов делает недоброжелателя или промоутера?

3. Какие 5 лучших и 5 худших маршрутов?

4. Какая авиакомпания-партнер является лучшей и худшей с точки зрения удовлетворенности клиентов?

5. Каково распределение удовлетворенности клиентов рейсами между штатами и между штатами?

ОЧИСТКА И УДАЛЕНИЕ ДАННЫХ
Для обеспечения единообразия данных, чтобы они поддерживали все виды описательного анализа и применяли методы моделирования данных, было важно потратить некоторое время на получение правильных данных. Мы начали наш примитивный процесс очистки данных с проверки наличия в наборе данных каких-либо столбцов. Затем мы создали несколько новых категориальных переменных, которые лучше представляли бы непрерывные переменные. Кроме того, мы создали несколько новых столбцов с непрерывными переменными, такие как ArrivalDelayRatio и DepartureDelayRatio.

ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ

А. БАРНАЯ ДИАГРАММА

NPS и сравнение одной переменной

В этом разделе мы хотели бы изучить, какие клиенты имеют низкий показатель Net Promoter Score (NPS). Общий NPS в данной группе рассчитывается путем вычитания процента респондентов, которые являются недоброжелателями (оценка 1–7 по вероятности рекомендации), из процента респондентов, которые были промоутерами (оценка 9–10). Мы сравниваем NPS различных переменных в данной группе с помощью гистограмм.

Б. РАЗРАБОТКА ТЕКСТА

В этом разделе мы сравниваем ключевые слова в комментариях промоутеров и недоброжелателей об авиакомпаниях Юго-Востока. Комментарии хранятся в столбце «произвольный текст» набора данных.

Как видно из двух графиков, клиенты-недоброжелатели обычно жалуются на задержки, обслуживание и места, в то время как клиенты-промоутеры хвалят еду и обслуживание. Хотя слово «облака» дает некоторую информацию о том, как путешественники думают об авиакомпаниях, по-прежнему трудно понять, что означают такие слова, как «класс», «клиент» и «багаж». Поэтому мы токенизируем текст в биграммы (два соседних слова), чтобы изучить ключевые фразы в комментариях клиентов. Чтобы удалить стоп-слова из биграмм, мы сначала разделяем биграммы на слова в двух столбцах, отдельно фильтруем слова в списке запрещенных слов и снова объединяем два слова. Затем мы рисуем две гистограммы для наиболее часто встречающихся двух слов в высказываниях хулителей и промоутеров. Как видно из графиков, неудовлетворенные клиенты жалуются на такие проблемы, как «пространство для ног», «багажные бирки» и плохое «обслуживание клиентов», описывая эту авиакомпанию как «худшую авиакомпанию» и планируя выбрать «другую авиакомпанию». в будущем.

С. ИНТЕР- И ВНУТРЕННЯЯ МНОЖЕСТВЕННАЯ БАРНАЯ ДИАГРАММА

Как видно из графика, только Техас имеет отрицательный NPS как для межгосударственных, так и для внутригосударственных маршрутов. Миссури и Невада имеют положительный NPS для межгосударственных маршрутов, но отрицательный NPS для внутригосударственных маршрутов.

Д. ВИЗУАЛИЗАЦИЯ КАРТЫ

Чтобы решить проблему, с которой мы столкнулись во время группировки состояний, мы применили фильтр по количеству рейсов, вылетающих или прибывающих в аэропорт. Мы использовали фильтры проб и ошибок и остановились на n ›25, что означает, что мы рассматриваем только те города-аэропорты, из которых более 25 рейсов вылетают или прибывают в этот город. Из состояний мы сосредоточили наши визуализации на Городах. Мы хотели выяснить, какие аэропорты работают лучше или хуже с точки зрения NPS. Красные кружки обозначают 5 городов-аэропортов с наихудшими показателями, а зеленые треугольники - 5 самых эффективных городов-аэропортов.

Мы наблюдали несколько вещей из этих визуализаций. Тусон неизменно занимает лидирующие позиции по показателю NPS как в пункте назначения, так и в городах прибытия. Хотя Оклахома-Сити является одним из ведущих промоутеров рейсов в исходный город, он является одним из худших недоброжелателей с точки зрения рейсов в город назначения. И Бирмингем плохо выполняет рейсы как в город назначения, так и в город прибытия. Мы хотели сделать еще один шаг, не ограничиваясь только определением того, какие города работают хорошо или плохо. Хотели посмотреть и маршруты. Поэтому мы создали группу «Город происхождения» и «Город назначения» и начали смотреть на нее с точки зрения NPS. Даже здесь мы использовали фильтр, чтобы не учитывать данные, которые были редко распределены. Маршруты зеленого цвета являются наиболее эффективными маршрутами, а маршруты красного цвета указывают на наименее эффективные маршруты.

Здесь мы заметили, что маршруты Даллас - Хьюстон и Хьюстон - Даллас неэффективны с точки зрения NPS. И должно быть что-то внутри аэропорта или рейсы отменяются из-за того, что люди дают очень низкие оценки NPS.

МЕТОДЫ МОДЕЛИРОВАНИЯ ДАННЫХ

А. ЛИНЕЙНЫЕ МОДЕЛИ

Мы использовали многомерные модели и двумерные графики, используя все значимые непрерывные переменные, чтобы понять и предсказать закономерности для различных комбинаций. Графики особенно помогли нам определить взаимосвязь различных переменных с вероятностью рекомендации. Для моделей мы сначала объединили все непрерывные переменные, что привело к значению R-квадрата 0,09.

КОД: модель ‹- lm (формула = Likelihood.to.recommend ~ Loyalty + Total.Freq.Flyer.Accts + Age + Price.Sensitivity + Flights.Per.Year + ArrivalDelayRatio + DepartureDelayRatio , data = df) summary (model7)

В заключение, мы собрали много идей из графиков и моделей, но, поскольку значение R-квадрат было низким, мы не могли основывать наш анализ только на линейных моделях. Поэтому мы продолжили анализ данных с еще несколькими моделями.

Б. МОДЕЛЬ ЛОГИСТИЧЕСКОЙ РЕГРЕССИИ

Основная задача этого проекта - предсказать, является ли пассажир хулителем или нет, на основе имеющихся у нас данных. В качестве модели классификации категориальных переменных для этого сценария подходит логистическая регрессия. В этом разделе мы построили модель логистической регрессии, чтобы оценить, как изменение класса, статуса авиакомпании и типа поездки влияет на то, становится ли пассажир хулителем или промоутером.

Как следует из краткого обзора модели, изменение статуса авиакомпании на серебряный и золотой являются наиболее значительными факторами, которые снижают вероятность того, что пассажир будет хулителем, в то время как выбор личного путешествия вместо бизнес-поездки является значительным фактором, который делает пассажира хулителем. Модель работает хорошо, достигнув точности 0,817, рассчитанной с помощью матрицы неточностей.

С. ПОДДЕРЖКА ВЕКТОРНЫХ МАШИН

Мы использовали подход более высокого уровня для определения переменных для SVM. Мы подумали, какие специфические для авиакомпании атрибуты ассоциируются с пассажиром, когда он летит. Какие варианты выбирает летчик перед полетом? Затем мы подошли к трем атрибутам:

  • Статус авиакомпании
  • Тип путешествия
  • Класс

Мы решили запустить модель SVM по этим атрибутам. Перед этим мы преобразовали переменные в дискретные числовые переменные. Поскольку мы знали, что использовали 3 переменные для прогнозирования промоутеров и противников, мы могли бы выбрать лучшую технику визуализации, чем обычная функция для 2D-графика. Поэтому мы создали плавную трехмерную визуализацию, где гиперплоскость отделяет недоброжелателей от промоутеров.

Д. РАЗРАБОТКА ПРАВИЛ АССОЦИАЦИИ

Мы использовали анализ ассоциативных правил, чтобы понять, какие основные факторы влияют на вероятность рекомендации. Мы хотели знать, какая комбинация атрибутов ведет к промоутерам и недоброжелателям. Кроме того, мы связали наши выводы с авиакомпаниями, чтобы получить более глубокое понимание.

Для начала мы создали подмножество всех категориальных переменных. После преобразования его в матрицу транзакций мы провели анализ, в результате которого было выработано множество правил. Было сгенерировано более десяти тысяч правил, которые было трудно интерпретировать. Поэтому мы просто сосредоточились на недоброжелателях и сгенерировали правила с помощью априорной функции. Здесь мы получили обзор всех комбинаций атрибутов, из-за которых покупатель становится хулителем. Затем, используя эту информацию, мы начали составлять различные комбинации, как для промоутеров, так и для противников, и соблюдали правила, сгенерированные на их основе. Мы сохранили рост параметра на максимально высоком уровне и построили правила для лучшей интерпретации.

Кроме того, мы хотели выяснить, что идет не так, а что правильно в отношении лучших и худших авиакомпаний-партнеров. Поэтому мы сосредоточили свое внимание на Flyfast Airways Inc и Northwest Business Airline Inc, которые были соответственно худшими и самыми эффективными авиакомпаниями-партнерами.

СРАВНЕНИЕ МОДЕЛЕЙ

Опробовав различные модели для всех возможных переменных, мы обнаружили, что «Класс», «Статус авиакомпании» и «Тип путешествия» являются наиболее важными предикторами для определения типа клиента (недоброжелатель или промоутер). Хотя и логистическая регрессия, и SVM обеспечивают относительно высокую точность в прогнозировании недоброжелателей, трудно понять, как каждая отдельная переменная в модели влияет на конечный результат. Напротив, представляя, в какой конкретной ситуации (синий статус авиакомпании, личный перелет и эконом-класс) пассажир с наибольшей вероятностью будет хулителем, анализ ассоциативных правил предлагает нам четкое и важное понимание бизнеса. Поэтому мы считаем, что поиск ассоциативных правил - лучший выбор для решения этой бизнес-задачи.

ДЕЙСТВУЮЩАЯ ИНФОРМАЦИЯ

  1. Улучшите обслуживание клиентов, например обработку багажа и пространство для ног.
  2. Работа с удобствами и услугами для женщин, несовершеннолетних и пожилых людей.
  3. Улучшение условий и услуг для клиентов, которые находятся в личном путешествии, имеют статус синей авиакомпании или эко-класс.
  4. Дальнейшее расследование ситуации с авиакомпаниями в Техасе, особенно в Далласе.
  5. Изучите воздушные маршруты с FlyFast Airlines Inc в качестве авиакомпаний-партнеров.

ПОДТВЕРЖДЕНИЕ

Мы благодарим профессора Джеффри Зальца (Школа информационных исследований - Сиракузский университет) за предоставление нам необходимых рекомендаций для усиления и направления нашего подхода к успешному завершению проекта.