10 портфельных проектов, которые вы можете попробовать в качестве аналитика данных/научного сотрудника начального уровня

Содержание

1. Crop Recommendation System
2.Movie recommender system
3. Forbes 2022 EDA с использованием Python
4. Анализ рыночной корзины
5. Реализация алгоритма стабильного соответствия Гейла-Шапли
6. Тест Бехделя
7. Проект по анализу настроений
8. Зарплаты в области науки о данных
9. Классификация фишинговых писем
10. Вклад с открытым исходным кодом

Я ненавижу слово “новичок”. Если вы торопитесь, пропустите третий абзац. Я всегда делаю это, чтобы “наверстать упущенное”, прежде чем перейти непосредственно к делу.

Вот 10 проектов, в которых я участвовал на протяжении своего пути, чтобы создать портфолио/карьеру.

1. Crop Recommendation System

Используемые инструменты: Python, HTML, CSS, Flask, базовые знания ML Сложность: Легко

Это был мой первый проект, который я сделал, и хотя сейчас я его очень ненавижу, я им очень горжусь. Я построил модель дерева решений, которая рекомендует наилучшую культуру при определенных погодных условиях и состоянии почвы. Я развернул ее локально с помощью Flask, и в настоящее время на моем github находится ужасная версия проекта, поэтому я не хочу давать на нее ссылку. Когда я выложу лучшую версию, я выложу ее здесь.

2.Movie recommender system

Используемые инструменты: Python, знание NLTK и косинусного сходства, Heroku, Streamlit Сложность: Средняя

Это был мой второй проект, но он совсем не похож на первый. В нем использовалось НЛП и косинусное сходство. Я только что закончил курс Эндрю Нг по машинному обучению на Coursera и посмотрел учебник по рекомендациям фильмов TMDB на YouTube, поэтому я создал его на наборе данных Netflix. Я также поработал над streamlit, чтобы разрешить доступ пользователей, и даже развернул систему с помощью Heroku. Для меня это самый трудный проект, который я когда-либо делал. Я даже плакал. В настоящее время я научился делать вещи лучше, но я многому научился благодаря этому проекту. Это ссылка на github. Его нужно немного подправить, но он не так уж и плох.

3. Forbes 2022 EDA с использованием Python

Используемые инструменты: Python (Pandas и Matplolib) Сложность: Легко

Это был первый проект EDA, который я опубликовал. Я также писал о нем по этой ссылке. Проект был простым, и я понял, что можно учиться и на маленьких проектах. Я пересмотрел свои знания о Pandas и Matplolib. Я также узнал, как задавать правильные вопросы и как анализ направлен на то, чтобы что-то обнаружить. Кроме того, благодаря этому проекту меня узнало множество людей. Это ссылка на GitHub на проект.

4. Анализ рыночной корзины

Используемые инструменты: Python (pandas, matplotlib, ассоциативные правила) Сложность: Средняя

Я еще не писал об этом проекте, но это один из тех проектов, которые, по моему мнению, должен попробовать аналитик данных. Вы получаете возможность понять правила ассоциаций, как продаются продукты в компании и какие продукты лучше всего продаются друг с другом. Как продукт с высоким уровнем продаж может помочь в продаже продукта с низким уровнем продаж и так далее. Мне понравилось изучать и делать этот проект, и, возможно, скоро я выложу его на GitHub, но до этого вам стоит изучить и попробовать его. Это просто.

5. Реализация алгоритма стабильного соответствия Гейла-Шапли

Используемые инструменты: Python Сложность: Средняя

Это не проект, связанный с данными. В прошлом году я учился на программе академии, которая ориентирована на python, и мне посчастливилось реализовать этот алгоритм на python. Этот алгоритм очень интересен. Алгоритм сопоставления Гейла-Шарпли направлен на обеспечение стабильного сопоставления. Конечная цель заключается в том, чтобы каждый человек женился на (мужчине)/(женщине) и все они были довольны своими парами. Все они получают возможность быть вместе с наиболее предпочтительным для них вариантом. Мне кажется, я недостаточно хорошо это объясняю. Возможно, я посвящу этому целый пост, но до этого вы можете почитать/поискать об этом в google.

6. Тест Бехделя

Используемые инструменты: Tableau, Python (для анализа) Сложность: Легко

Тест Бехделя позволяет установить, что в фильме есть хотя бы одна сцена, в которой женщина разговаривает с другой женщиной и речь идет не о мужчине. Я обязательно напишу пост об этом проекте. Это одна из тех книг, которые зацепили меня с первого прочтения. Как только я услышала об этом тесте, мне захотелось что-то с ним сделать и рассказать о нем людям. Я связала его с эволюцией феминизма и исследовала, улучшило ли влияние феминизма отношение общества к женщинам. Для этого я сгруппировал годы по различным столетиям и проследил за количеством фильмов, прошедших тест за эти годы. Я даже сделал для этого визуализацию в виде таблицы, но пока не довел ее до совершенства. Я также не писал об этом.

7. Проект по анализу настроений

Инструменты: Python, NLTK, Power BI Сложность: Легко

Я делал проект по анализу настроений, когда вышла “Черная пантера 2”, и недавно сделал еще один с использованием двух разных библиотек. Это довольно легко сделать, и я думаю, что это то, что должен попробовать каждый аналитик данных. Я даже визуализировал его с помощью Power BI и осмелился использовать черный фон. Да. Я это сделал. Вот ссылка на пост: Черная пантера.

8. Зарплаты в области науки о данных

Используемые инструменты: PostgreSQL, Excel, Power BI Сложность: Средняя

И снова один из проектов, который сделал меня известным. Я получил так много отзывов и рецензий на этот проект. Я использовал SQL, Excel для очистки и Power BI для визуализации. Я написал об этом и опубликовал по этой ссылке. Данные были получены по этой ссылке, и я исследовал зарплаты специалистов по работе с данными в зависимости от их профессии, мобильности, типа занятости и многого другого. Для анализа данных использовался SQL. Я использовал оконные функции и подзапросы, и, честно говоря, мне удалось как следует попрактиковаться в том, что Я научился.

9. Классификация фишинговых писем

Используемые инструменты: Python Сложность: Hard

Это один из самых сложных проектов, в которых я принимал участие. Я строил модели, которые классифицируют фишинговые и нефишинговые письма, используя структуру письма, стилометрические признаки и так далее. Это заняло немало времени. Я работал над извлечением признаков, очисткой данных, уменьшением размерности, кросс-валидацией и построением моделей. Также я исследовал различные методы оценки. Я еще не выложил это на GitHub, но скоро выложу. Хотя я не думаю, что смогу сделать об этом пост.

10. Вклад с открытым исходным кодом

Есть еще несколько проектов, о которых можно рассказать, но проектом номер 10 будет вклад в открытый исходный код. Я научился юнит-тестированию, git и многому другому благодаря открытому исходному коду. Это то, что я делаю нечасто, потому что у меня всегда есть небольшая работа, которая так меня занимает, но как только у меня появится постоянная работа, я обязательно стану постоянным участником. Так многому можно научиться, и открытый исходный код - один из самых быстрых способов обучения.

Свяжитесь со мной: LinkedIn : https://www.linkedin.com/in/durgesh4993/ GitHub : https://github.com/Durgesh4993 Twitter : https://twitter.com/durgesh4993

Поделиться: