Введение

С 2008 года гости и хозяева используют Airbnb для более уникального и индивидуального путешествия. В рамках инициативы Airbnb Inside собранный набор данных описывает активность размещения в семьях в Сиэтле, штат Вашингтон. [источник]

Мы будем использовать эти собранные наборы данных, чтобы исследовать их и найти ответы на некоторые из наиболее важных вопросов, которые каждый из нас хочет знать.

  • Есть ли тенденция между количеством объявлений и посетителями на Airbnb?
  • Был ли в Сиэтле скачок стоимости в самое загруженное время года? И,
  • Какие функции отвечают за оценку стоимости листинга?

Часть I. Есть ли тенденция между количеством объявлений и посетителями на Airbnb?

С момента своего основания Airbnb нашел свой путь в гостиничном бизнесе. Только в Сиэтле у них более 6000 объявлений от более чем 4000 хостов.

Кроме того, количество посетителей, которые воспользовались услугой Airbnb и оставили отзывы о ней, растет в геометрической прогрессии с 2009 по 2019 год.

Но тогда возникает следующий вопрос,

Есть ли у них достаточное количество списков для обслуживания своих клиентов?

Чтобы ответить на этот вопрос, мы анализируем набор данных «отзывы», чтобы выяснить общее количество уникальных объявлений, которые каждый год заносились в базу данных Airbnb в Сиэтле.

Здесь также наблюдаемый результат был аналогичен отзывам за год-месяц. Количество списков хостов также растет в геометрической прогрессии каждый год.

Таким образом, рост Airbnb в Сиэтле увеличивается каждый год, начиная с 2008 года.

ЧАСТЬ II: Наблюдается ли какой-либо всплеск стоимости в самое загруженное время года в Сиэтле?

Рассмотрим приведенный выше график (рис. 1: количество отзывов за год-месяц), здесь всплески количества отзывов наблюдаются в основном в августе. А чтобы сделать обзор, скорее всего, человек уже побывал в заведении заранее. Таким образом, можно предположить, что самое оживленное время года в Сиэтле — это лето.

Лето приходится на июль-август. Итак, следующее, что нужно знать, это то,

Что с ценой, она растет?

Чтобы ответить на этот вопрос, мы изучили набор данных «календарь». Он содержит информацию о дневной цене и доступности каждого объявления в Сиэтле с июня 2020 года по май 2021 года.

Средняя цена за каждый месяц кажется разной. Это означает, что цены действительно зависят от времени года.

На графике видно, что средняя цена каждого объявления повышается на 6% в июле и августе, то есть летом 2020 года.

ЧАСТЬ III: Какие функции отвечают за оценку цены листинга?

Чтобы оценить цену любого объявления на Airbnb, влияют многие факторы, и каждый элемент играет решающую роль, включая местоположение, район, типы недвижимости, типы комнат, количество гостей, удобства, отзывы и т. д.

Чтобы понять важную функцию, отвечающую за оценку цены, мы собираемся использовать технику машинного обучения для анализа набора данных «список», чтобы делать прогнозы в отношении значения цены.

После очистки собранных данных мы разделяем набор данных на обучающий и тестовый. Затем обучающий набор используется регрессором случайного леса для моделирования и подбора данных для прогнозирования.

Регрессор случайного леса достигает оценок R2 0,938 и 0,674 для прогнозирования обучающих и тестовых наборов соответственно. Оценка R2 — это мера для оценки корреляции между прогнозируемыми данными и истинными данными для регрессионной модели. 1,0 балла означает идеальную положительную корреляцию, а -1,0 означает идеальную отрицательную корреляцию. Оценка 0,0 означает отсутствие корреляции. (См. вики: ‘Коэффициент детерминации’)

Из графиков прогноза видно, что модель работает очень хорошо для нижнего ценового диапазона по сравнению с более высоким ценовым диапазоном. Затем мы используем модель для извлечения важных функций.

Сама по себе относительная важность не может сказать, в каком направлении, то есть положительном или отрицательном, каждая функция влияет на прогнозирование цены. Следующий вопрос, который приходит,

Как соотносятся важные характеристики и цены?

Корреляционная диаграмма показывает, что,

  • цены сильно зависят от количества спален, ванных комнат, людей, которые могут разместиться, включая гостей, дополнительных людей и сборов за обслуживание, таких как плата за уборку и залог;
  • некоторые из качеств хоста одинаково важны, например, общее количество объявлений хоста, уровень принятия хостом и т. д. и
  • цены также могут зависеть от отзывов.

ВЫВОДЫ

В этом анализе мы попытались получить обзор движущейся тенденции с точки зрения количества объявлений по сравнению с общим количеством посетителей, и оба они имели экспоненциальный рост. Под капотом мы также выяснили, что лето, особенно июль и август, были самым загруженным временем года. И, прежде всего, мы попытались оценить стоимость листинга и нашли некоторые важные функции, отвечающие за нее.

Надеюсь, вам понравилось пошаговое руководство. Чтобы узнать, как мы пришли к этому результату, нажмите здесь.