Выберите один или все, что вам больше всего нравится.

Проекты в области науки о данных - отличный способ для новичков овладеть некоторыми из самых базовых навыков и языков в области науки о данных, которые вам понадобятся, чтобы заниматься наукой о данных в качестве хобби или карьеры. Учебники, уроки и видео - все великолепно, но проекты действительно служат ступенькой к вовлечению в науку о данных и к тому, чтобы запачкать руки.

Проекты по науке о данных для начинающих лучше подходят для изучения языков и навыков, потому что они более липкие. Я смотрел видео об изучении Python около 10 000 раз, но я действительно начал понимать Python только тогда, когда взял проект и сделал его сам. Проекты в области науки о данных хороши тем, что у вас гораздо больше личных интересов, чем просто просмотр онлайн-обучения. У вас есть мотивация увидеть что-то до конца, когда вы заинтересованы в этом вопросе.

Хорошим проектом может быть что угодно, от обучения импорту набора данных до создания собственного веб-сайта или чего-то еще более сложного. Проекты могут быть личными, они просто помогают вам учиться; они могут служить портфолио, чтобы доказать, что вы знаете, о чем говорите.

В этой статье будет предложено 18 идей проектов по науке о данных для начинающих. Выберите один или все из них - что вам больше всего нравится. Давайте начнем.

6 Data Science Project Tutorials for Beginners
· Project 1: House Prices Regression
· Project 2: Titanic Classification
· Project 3: Deep Learning Number Recognition
· Project 4: YouTube comment sentiment analysis
· Project 5: Covid-19 Data Analysis Project
· Project 6: YouTube APIs with Python
5 DIY Data Science Project Ideas for Beginners [Unlimited Data Science Project Ideas]
· Project 7: Tidy Tuesdays
· Project 8: The Pudding
· Project 9: 538
· Project 10: NASA
· Project 11: The Tate museum
7 Skills-Based Data Science Projects
· Project 12: Collect data
· Project 13: Clean data
· Project 14: Explore data
· Project 15: Visualize data
· Project 16: Regression
· Project 17: Statistics in general
· Project 18: Machine learning
Data science project ideas for beginners are unlimited

Эти семь проектов в области науки о данных представляют собой смесь видео и статей. Они охватывают разные языки в зависимости от того, что вы хотите изучать. Вы узнаете, как использовать API, как делать прогнозы, касаться глубокого обучения и смотреть на регрессию.

Эти руководства по проектам для начинающих являются практическими и конкретными, поэтому они идеально подходят, если вы хотите начать, но не знаете, где именно. Выберите тот, который вам нравится, посмотрите, где вы боретесь, и используйте его, чтобы начать составлять список других навыков в области науки о данных, которым вы можете научиться.

Проект 1: Регрессия цен на жилье

Во время пандемии я обнаружил, что трачу много времени на Zillow. Мне нравилось смотреть на разные дома, потому что они были богаты данными. Мне нужно исследовать так много разных аспектов и погрузиться в них. Этот странный интерес привел меня к этому руководству, которое позволяет вам предсказать окончательную цену домов в Эймсе, штат Айова.

Звучит странно, но весело.

Вы можете использовать R или Python для выполнения этого проекта. Честно говоря, это амбициозный проект, особенно если вы новичок в программировании. Но я начинаю с него, потому что думаю, что он отвечает на вопрос, который задают многие люди - сколько стоят дома? Люди по своей сути любопытны, и лучшие проекты в области науки о данных используют это любопытство, чтобы научить вас навыкам.

Что мне нравится в этом руководстве по Kaggle, так это то, что в нем есть масса различных вариантов его завершения, и эти различные решения доступны сообществу. Любой может загрузить туда свой собственный код, так что это действительно хорошее место для обучения и копирования у других людей (что на самом деле является одним из лучших способов научиться программировать).

Зацикливайтесь на прогнозах, небольшом количестве машинного обучения и некоторой регрессии.

Проект 2: Классификация Титаника

Одна из самых известных трагедий в мире - гибель Титаника. Спасательных шлюпок на всех не хватило, в результате чего погибло более 1500 человек. Однако если вы посмотрите на данные, окажется, что одни группы людей выжили больше, чем другие.

На том же сайте, что и в проекте выше, Kaggle, проводится этот конкурс. Они попытались выяснить, какие факторы с наибольшей вероятностью приведут к успеху - социально-экономический статус, возраст, пол и многое другое. Подобно проекту цен на жилье, у этого проекта есть доступ к коду многих других программистов, у которых вы можете учиться. У них также есть свой собственный учебник, который они предлагают новичкам. Это действительно полезно для людей, которые плохо знакомы с Kaggle, а также с программированием.

В конце концов, вы построите прогностическую модель, которая ответит на этот вопрос. Я рекомендую Python для этого.

Независимо от того, действительно ли вы участвуете в конкурсе, это по-прежнему один из отличных проектов в области науки о данных для начинающих.

Проект 3: Распознавание чисел методом глубокого обучения

Вы знали, что компьютеры могут видеть? Многие из последних интересных проектов в области науки о данных связаны с компьютерным зрением. Из этого туториала Вы узнаете основы нейронных сетей и методов классификации. Во время обучения ваша задача - правильно определять цифры в наборе данных, состоящем из десятков тысяч рукописных изображений.

Этот конкурс / учебник также проводится Kaggle - вы можете ознакомиться с некоторыми из их собственных руководств, или вы можете просто застрять с кодом, отправленным пользователем.

На мой взгляд, этот проект не так интересен, как «Титаник» или руководство по ценам на жилье, но он научит вас некоторым основам очень сложного предмета. К тому же довольно безумно то, что можно научить компьютер видеть.

Проект 4: анализ настроений в комментариях на YouTube

Не читайте комментарии! … Если вы не работаете над проектом по анализу настроений и анализу настроений на YouTube для начинающих.

Это руководство по анализу настроений в комментариях на YouTube великолепно, потому что оно действительно для начинающих. Создатель видеоурока - новичок в обработке естественного языка, и это навык, который вы изучите в этом руководстве. Это действительно классное видео продолжительностью около 14 минут, идеально подходящее для начала работы с НЛП. Это также отличное представление, которое в хорошем смысле показывает, как проекты по науке о данных могут ускользнуть от вас.

Видео действительно забавное, и она ссылается на код в своем GitHub. Не стесняйтесь разбираться в этом сами!

Проект 5: Проект анализа данных Covid-19

Во время пандемии мне казалось, что все вышло из-под моего контроля. Это звучит глупо, но одним из способов обосновать себя было просто следить за ежедневными числами. Иногда это меня раздражало, но я обнаружил, что смотрю на данные как на способ понять невообразимое.

Канал Python Programmer имел похожую идею. В этом руководстве он научит вас проводить анализ данных Covid-19 с помощью Python.

Этот видеоурок немного более серьезен, чем предыдущий, и в нем более подробно рассказывается о том, как это делается. Он также охватывает основы некоторых довольно важных пакетов Python, таких как pandas. Это действительно четкое введение в pandas и Python.

Проект 6: API YouTube с Python

Говоря об API, работа с API - необходимый набор навыков для всех других ученых. Когда вы выбираете проект, убедитесь, что хотя бы один из них научит вас работать с API, чтобы убедиться, что вы овладели этим важным навыком.

В этом руководстве Python используется для выполнения вызова API для сбора статистики видео с канала и сохранения ее в виде фрейма данных pandas. Он также предлагает вам код записной книжки Python и дополнительные ресурсы на GitHub.

5 идей проекта DIY Data Science для начинающих [Неограниченные идеи проектов Data Science]

Существуют практически миллионы потенциальных проектов в области науки о данных, которые я задокументировал в виде учебных пособий и видео. Но также полезно знать, как создать свой собственный проект. В каждом другом руководстве по проекту мы будем говорить о том, что другие люди хотят делать, - подумайте о том, что вы хотите сделать.

Придумывая свой собственный проект, я в первую очередь попал в Python. У меня был вопрос, мне нужен был ответ, единственный способ получить его - проанализировать мои данные с помощью python. Вместо того, чтобы перечислять больше отдельных руководств, я хочу указать вам на некоторые ресурсы, которые могут помочь вам разрабатывать собственные проекты по науке о данных с нуля.

Проект 7: Чистые вторники

Этот проект опирается на репозиторий Чистый вторник на GitHub. Самое замечательное в этом репо то, что каждый вторник загружаются совершенно новые неаккуратные данные. Когорта анализирует это, визуализирует и обычно играет с этим. Это отличное место, чтобы учиться у других и экспериментировать с этим самостоятельно.

Это репо лучше всего подходит для людей, которые хотят изучить R (хотя также хорошо для некоторых Python). Он также лучше всего подходит для базовых навыков работы с данными, таких как чтение файлов, вводный анализ, визуализация и отчетность.

Например, набор данных «Чистый вторник» на этой неделе был получен Национальным бюро экономических исследований. То, как был структурирован набор данных, означало, что было хорошо научиться объединять таблицы. Может быть, вам интересно узнать о женском представлении авторов статей. Может быть, вы хотите узнать о частоте публикаций летом по сравнению с зимой. В любом случае TidyTuesday может помочь вам приобрести базовые навыки работы с данными с новыми данными каждую неделю. Он тоже насчитывает несколько лет, поэтому вы сможете найти что-то интересное, какие бы данные вам ни нравились, и у вас никогда не закончатся идеи для проектов в области науки о данных.

Проект 8: Пудинг

Pudding делает действительно отличную визуализацию и анализ, обычно с использованием JavaScript, Python или R. TidyTuesday отлично подходит для большого объема, но The Pudding предлагает несколько действительно странных проектов.

Может быть, вы также являетесь большим поклонником сообщества, как я, и хотите знать, сколько раз Эбед произносит слово круто по сравнению с Джеффом или Энни. Возможно, вы любите читать письма Agony Aunt, и вас заинтригует понимание тридцатилетних американских тревог из писем Дорогая Эбби.

Эти проекты предлагают множество культурных комментариев. Они более сложные и узкоспециализированные, чем некоторые другие в этом списке, но они захватывающие и могут многому вас научить, особенно в области визуализации. The Pudding предлагает весь свой код в своем репозитории GitHub, который я рекомендую вам проверить.

Проект 9: 538

Спорт и политика сталкиваются в блоге 538, объединяясь в великолепном всплеске статистики и математики. Здесь вы можете пролистать статьи, найти все, что вас интересует, и перейти в репозиторий GitHub, чтобы увидеть код и анализ результатов. Оттуда вы можете сами погрузиться в данные.

Один из проектов, в который я с удовольствием копался, - это реклама Суперкубка. В оригинальной статье говорилось о том, как американцы любят Америку, животных и секс (о чем свидетельствует их частота в рекламе Суперкубка). Мне было интересно узнать, было ли за эти годы больше рекламы сексуального характера. Найдите свой вопрос и погрузитесь в него!

Проект 10: НАСА

Кто не хотел быть космонавтом, когда вырос? Теперь у вас (своего рода) возможность преследовать эту мечту.

Данные НАСА не так удобны для пользователя, как три варианта, которые я перечислил выше. Но количество (и общая привлекательность) предлагаемых здесь данных делает их обязательными для любого списка проектов по науке о данных. Вместо того, чтобы копаться в их обширной литературе и базах данных, я рекомендую вам начать с этой серии руководств Космическая наука с Python ». Например, вы хотите знать, насколько близко астероид 1997BQ прошел мимо Земли в мае 2020 года? Теперь у тебя есть шанс узнать.

Проект 11: Музей Тейт

Может быть, вы больше увлекаетесь искусством и гуманитарными науками. К счастью, есть данные, которые можно использовать для создания собственного проекта по науке о данных. Не ищите ничего, кроме архива данных музея Тейт. Здесь вы можете найти метаданные более чем 3500 художников.

С этими данными вы можете многое сделать для себя, но на случай, если вы уже не знаете, с чего начать, в галерее Тейт полезно перечислить примеры проектов в области науки о данных, которые другие реализовали с доступом к этим данным. Например, Флориан Краутли провел великолепный вводный исследовательский анализ, который вы можете проверить.

7 проектов по науке о данных, основанных на навыках

Первый раздел этого сообщения в блоге был посвящен довольно конкретным учебникам. Второй научил вас, где искать, чтобы создавать собственные идеи для проектов в области науки о данных. Этот последний подскажет вам правильное направление для идей проектов по науке о данных, основанных на навыках. Это наиболее актуально для тех, кто составляет резюме или подумывает о приеме на работу в области науки о данных.

Каждый из этих семи шагов стоит того, чтобы стать отдельным проектом по науке о данных для новичков, но как только вы будете готовы, вы также можете использовать эти семь для создания полного проекта для более среднего / продвинутого специалиста по данным.

Проект 12: Сбор данных

Самым первым шагом в любом проекте по науке о данных стоит стать самим проектом по науке о данных: сбор данных.

В большинстве случаев данные не поступают на ваш компьютер в виде аккуратных таблиц. Вы должны выяснить, как добраться из точки А в точку Б, чтобы делать все, что вы хотите.

Превратите его в проект и исследуйте, как собирать данные с помощью некоторых из самых популярных языков науки о данных, таких как Python и SQL.

Проект 13: Чистые данные

Данные есть! Но это грязно. Обучение очистке данных было одним из самых больших недостатков моего магистра, когда я изучал охрану птиц. Я думал, что смогу получить данные и сразу же начать анализировать. К сожалению, были проблемы: дубликаты, н / д, числа, хранящиеся в виде текста, и почти все другие проблемы, о которых вы можете подумать.

Некоторые говорят, что очистка данных - это 80% работы специалиста по данным. Стоит знать, как это сделать.

Я выполнял свой проект с использованием R, поэтому, если это вы, я рекомендую этот учебник, чтобы узнать, как загружать и очищать данные с помощью R. Если вы начинающий Pythonista, этот учебник помог мне справиться с очисткой данных с помощью Pandas и NumPy, очень распространенные и полезные пакеты Python.

Проект 14: изучить данные

Когда ваши данные собраны и относительно аккуратны, пора переходить к интересной части: исследовать свои данные. Это не совсем то, что нужно для визуализации или анализа. Обычно вы смотрите так много данных, что это помогает понять, что на самом деле происходит, прежде чем вы начнете создавать модели. Думайте об этом проекте, как об опускании пальца ноги в воду, чтобы измерить температуру.

Этот 2,5-часовой видеоурок научит вас создавать проект исследовательского анализа данных полностью с нуля. Он длинный и на 100% исчерпывающий.

Проект 15: визуализировать данные

Вы можете многое сделать для визуализации данных, и многие специалисты в области науки о данных знают, какой вид визуализации лучше всего отражает идею, которую вы пытаетесь донести. Вот почему простая работа с визуализацией данных - отличная идея для новичков в области науки о данных.

Этот учебник Kaggle немного скучен, но научит вас некоторым основам визуализации данных. Обладая этими знаниями, вы можете продолжить и создать свой собственный проект визуализации науки о данных - на этот раз используя данные, которые вам небезразличны.

Проект 16: Регрессия

Регрессия - это очень важный инструмент прогнозирования, используемый во всех областях науки о данных. Это то, что помогает вам статистически определить взаимосвязь между X и Y. Это самые основы того, что станет машинным обучением.

Вы можете создать проект, ориентированный на регрессию, с любым набором данных, который имеет переменные X и Y. Я сделал это сам, используя данные о птицах, предсказывая, влияет ли размер птицы на ее выживание. Выберите любой набор данных, который вам нравится, и используйте такой метод, как учебник Kaggle по данным о качестве красного вина, ссылка на который находится здесь.

Проект 17: Статистика в целом

Легко увязнуть в шумихе вокруг НЛП, машинного обучения, искусственного интеллекта, электронного обучения и любых других сокращений науки о данных. Но не забывайте, что наука о данных всех видов опирается на статистику и математику. Чтобы получить максимальную отдачу от любой идеи проекта в области науки о данных, которая может у вас возникнуть, убедитесь, что вы усвоили основы статистики, лежащие в основе концепций науки о данных.

Я немного обманываю, сгруппировав все эти статистические основы в одном подзаголовке, но я рекомендую список восьми основных статистических концепций KDNuggets. Оттуда найдите проект, посвященный каждому из восьми. Например, возьмите набор данных Тейт, который я привел выше, и узнайте о центральной тенденции, вычислив среднюю дату окраски произведения искусства.

Вы можете использовать любой язык программирования для этого проекта. Мне нравится Python, поскольку он в любом случае отлично подходит для новичков, но R, SQL, JavaScript или любой другой язык программирования может достичь той же цели.

Проект 18: Машинное обучение

Давайте завершим этот список идей проектов по науке о данных для начинающих следующим: машинное обучение. Любой достойный специалист по данным знает о машинном обучении и может успешно использовать его для предсказания любого количества вещей. Используйте то, что вы узнали из регрессии, и примените это здесь.

Чтобы создать проект, который научит вас машинному обучению, подойдет практически любой набор данных. Например, вы можете использовать Данные Uber о самовывозе и задавать такие вопросы, как: Uber ухудшает пробки? В качестве альтернативы, это руководство, которое проведет вас через рекомендации фильмов, может быть хорошим проектом. Я рекомендую использовать Python из-за его пакета TensorFlow, который специально создан для машинного обучения.

Идеи проектов в области науки о данных для начинающих безграничны

Если у вас есть немного творчества и любопытства, вы можете поискать в Интернете данные и учебные пособия, необходимые для создания ваших собственных проектов в области науки о данных, независимо от ваших интересов или уровня навыков. Эта статья должна служить указателем на возможные варианты, которые вы можете просмотреть на досуге.

Если вам нравится читать подобные истории и вы хотите поддержать меня как писателя, подумайте о подписке, чтобы стать участником Medium. Это 5 долларов в месяц, что дает вам неограниченный доступ к историям на Medium. Если вы зарегистрируетесь по моей ссылке, я получу небольшую комиссию.

Https://zulie.medium.com/membership