Содержание
- 1. Crop Recommendation System
- 2.Movie recommender system
- 3. Forbes 2022 EDA с использованием Python
- 4. Анализ рыночной корзины
- 5. Реализация алгоритма стабильного соответствия Гейла-Шапли
- 6. Тест Бехделя
- 7. Проект по анализу настроений
- 8. Зарплаты в области науки о данных
- 9. Классификация фишинговых писем
- 10. Вклад с открытым исходным кодом
Я ненавижу слово “новичок”. Если вы торопитесь, пропустите третий абзац. Я всегда делаю это, чтобы “наверстать упущенное”, прежде чем перейти непосредственно к делу.
Вот 10 проектов, в которых я участвовал на протяжении своего пути, чтобы создать портфолио/карьеру.
1. Crop Recommendation System
Используемые инструменты: Python, HTML, CSS, Flask, базовые знания ML Сложность: Легко
Это был мой первый проект, который я сделал, и хотя сейчас я его очень ненавижу, я им очень горжусь. Я построил модель дерева решений, которая рекомендует наилучшую культуру при определенных погодных условиях и состоянии почвы. Я развернул ее локально с помощью Flask, и в настоящее время на моем github находится ужасная версия проекта, поэтому я не хочу давать на нее ссылку. Когда я выложу лучшую версию, я выложу ее здесь.
2.Movie recommender system
Используемые инструменты: Python, знание NLTK и косинусного сходства, Heroku, Streamlit Сложность: Средняя
Это был мой второй проект, но он совсем не похож на первый. В нем использовалось НЛП и косинусное сходство. Я только что закончил курс Эндрю Нг по машинному обучению на Coursera и посмотрел учебник по рекомендациям фильмов TMDB на YouTube, поэтому я создал его на наборе данных Netflix. Я также поработал над streamlit, чтобы разрешить доступ пользователей, и даже развернул систему с помощью Heroku. Для меня это самый трудный проект, который я когда-либо делал. Я даже плакал. В настоящее время я научился делать вещи лучше, но я многому научился благодаря этому проекту. Это ссылка на github. Его нужно немного подправить, но он не так уж и плох.
3. Forbes 2022 EDA с использованием Python
Используемые инструменты: Python (Pandas и Matplolib) Сложность: Легко
Это был первый проект EDA, который я опубликовал. Я также писал о нем по этой ссылке. Проект был простым, и я понял, что можно учиться и на маленьких проектах. Я пересмотрел свои знания о Pandas и Matplolib. Я также узнал, как задавать правильные вопросы и как анализ направлен на то, чтобы что-то обнаружить. Кроме того, благодаря этому проекту меня узнало множество людей. Это ссылка на GitHub на проект.
4. Анализ рыночной корзины
Используемые инструменты: Python (pandas, matplotlib, ассоциативные правила) Сложность: Средняя
Я еще не писал об этом проекте, но это один из тех проектов, которые, по моему мнению, должен попробовать аналитик данных. Вы получаете возможность понять правила ассоциаций, как продаются продукты в компании и какие продукты лучше всего продаются друг с другом. Как продукт с высоким уровнем продаж может помочь в продаже продукта с низким уровнем продаж и так далее. Мне понравилось изучать и делать этот проект, и, возможно, скоро я выложу его на GitHub, но до этого вам стоит изучить и попробовать его. Это просто.
5. Реализация алгоритма стабильного соответствия Гейла-Шапли
Используемые инструменты: Python Сложность: Средняя
Это не проект, связанный с данными. В прошлом году я учился на программе академии, которая ориентирована на python, и мне посчастливилось реализовать этот алгоритм на python. Этот алгоритм очень интересен. Алгоритм сопоставления Гейла-Шарпли направлен на обеспечение стабильного сопоставления. Конечная цель заключается в том, чтобы каждый человек женился на (мужчине)/(женщине) и все они были довольны своими парами. Все они получают возможность быть вместе с наиболее предпочтительным для них вариантом. Мне кажется, я недостаточно хорошо это объясняю. Возможно, я посвящу этому целый пост, но до этого вы можете почитать/поискать об этом в google.
6. Тест Бехделя
Используемые инструменты: Tableau, Python (для анализа) Сложность: Легко
Тест Бехделя позволяет установить, что в фильме есть хотя бы одна сцена, в которой женщина разговаривает с другой женщиной и речь идет не о мужчине. Я обязательно напишу пост об этом проекте. Это одна из тех книг, которые зацепили меня с первого прочтения. Как только я услышала об этом тесте, мне захотелось что-то с ним сделать и рассказать о нем людям. Я связала его с эволюцией феминизма и исследовала, улучшило ли влияние феминизма отношение общества к женщинам. Для этого я сгруппировал годы по различным столетиям и проследил за количеством фильмов, прошедших тест за эти годы. Я даже сделал для этого визуализацию в виде таблицы, но пока не довел ее до совершенства. Я также не писал об этом.
7. Проект по анализу настроений
Инструменты: Python, NLTK, Power BI Сложность: Легко
Я делал проект по анализу настроений, когда вышла “Черная пантера 2”, и недавно сделал еще один с использованием двух разных библиотек. Это довольно легко сделать, и я думаю, что это то, что должен попробовать каждый аналитик данных. Я даже визуализировал его с помощью Power BI и осмелился использовать черный фон. Да. Я это сделал. Вот ссылка на пост: Черная пантера.
8. Зарплаты в области науки о данных
Используемые инструменты: PostgreSQL, Excel, Power BI Сложность: Средняя
И снова один из проектов, который сделал меня известным. Я получил так много отзывов и рецензий на этот проект. Я использовал SQL, Excel для очистки и Power BI для визуализации. Я написал об этом и опубликовал по этой ссылке. Данные были получены по этой ссылке, и я исследовал зарплаты специалистов по работе с данными в зависимости от их профессии, мобильности, типа занятости и многого другого. Для анализа данных использовался SQL. Я использовал оконные функции и подзапросы, и, честно говоря, мне удалось как следует попрактиковаться в том, что Я научился.
9. Классификация фишинговых писем
Используемые инструменты: Python Сложность: Hard
Это один из самых сложных проектов, в которых я принимал участие. Я строил модели, которые классифицируют фишинговые и нефишинговые письма, используя структуру письма, стилометрические признаки и так далее. Это заняло немало времени. Я работал над извлечением признаков, очисткой данных, уменьшением размерности, кросс-валидацией и построением моделей. Также я исследовал различные методы оценки. Я еще не выложил это на GitHub, но скоро выложу. Хотя я не думаю, что смогу сделать об этом пост.
10. Вклад с открытым исходным кодом
Есть еще несколько проектов, о которых можно рассказать, но проектом номер 10 будет вклад в открытый исходный код. Я научился юнит-тестированию, git и многому другому благодаря открытому исходному коду. Это то, что я делаю нечасто, потому что у меня всегда есть небольшая работа, которая так меня занимает, но как только у меня появится постоянная работа, я обязательно стану постоянным участником. Так многому можно научиться, и открытый исходный код - один из самых быстрых способов обучения.
Свяжитесь со мной: LinkedIn : https://www.linkedin.com/in/durgesh4993/ GitHub : https://github.com/Durgesh4993 Twitter : https://twitter.com/durgesh4993