Data Science

Курс обучения: SkillFactory Data Science

Выпускная работа

Название проекта	Описание	Стек и инструменты
Финальный проект	Исследование временных рядов основных котировок крупных корпораций - Apple, Microsoft, Google, nVidia. Запуск наилучшего инференса модели как сервис	sklearn.linear_model (LinearRegression), sklearn.ensemble (AdaBoostRegressor, GradientBoostingRegressor, VotingRegressor), sklearn.model_selection (GridSearchCV, TimeSeriesSplit, cross_val_score), sklearn.metrics (mean_absolute_percentage_error, mean_squared_error, r2_score), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), Catboost (CatBoostRegressor), prophet (Prophet), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), pmdarima (auto_arima), seaborn (lineplot, pairplot, heatmap), with statement, time series, AIC, concat, correlation matrix, cross validation, correlogram, datetime, EDA, feature engineering, os.path, resample, rolling, stationarity, SMA, ARIMA, GPU, yfinance, pickle, Docker, Dockerfile, Flask

Проекты

Название проекта	Описание	Стек и инструменты
Проект 1. Анализ резюме из HeadHunter	Подготовка первичных данных - базы резюме, выгруженной с сайта поиска вакансий HH.ru - для построения перспективной модели, автоматически определяющей уровень заработной платы, подходящей пользователю, исходя из информации, которую он указал о себе	plotly (histogram, box, bar, imshow, scatter, sunburst), seaborn (histplot), os.path, merge, EDA, feature engineering
Проект 2. Анализ резюме из HeadHunter (SQL)	Анализ данных - базы резюме, выгруженной с сайта поиска вакансий HH.ru, используя навыки написания запросов SQL в БД PostgreSQL - для построения модели, рекомендующей вакансии клиентам агентства, претендующим на позицию Data Scientist	psycopg2, requests, plotly (bar, imshow), with statement, try-except statement, concat, EDA, feature engineering
Проект 3. Рейтинг отеля по данным сайта Booking. Соревнование на Kaggle	Построение модели, предсказывающей рейтинг отеля	collections (OrderedDict), category_encoders (TargetEncoder), sklearn.model_selection (train_test_split), sklearn.feature_selection (chi2, f_classif), sklearn.ensemble (RandomForestRegressor), sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error), sklearn.preprocessing (MinMaxScaler), concat, correlation matrix, EDA, feature engineering, feature importance, seaborn (barplot, boxplot, heatmap), lightautoml, nltk (SentimentIntensityAnalyzer), pivot_table, regex
Проект 4. Задача классификации	Построение модели машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать поведение клиента при открытии депозита	sklearn.metrics (classification_report), sklearn.preprocessing (LabelEncoder, MinMaxScaler), sklearn.model_selection (train_test_split, GridSearchCV, cross_val_score), sklearn.feature_selection (SelectKBest), sklearn.linear_model (LogisticRegression), sklearn.tree (DecisionTreeClassifier), sklearn.ensemble (RandomForestClassifier, GradientBoostingClassifier), optuna (Trial, study), match-case statement, concat, cross validation, correlation matrix, EDA, feature importance
Проект 5. Задача регрессии	Построение модели машинного обучения, которая на основе предложенных характеристик клиента будет предсказывать время поездки такси	collections (OrderedDict), scipy.stats (normaltest), sklearn.cluster (KMeans), sklearn.metrics (mean_squared_error, median_absolute_error), sklearn.preprocessing (OneHotEncoder, MinMaxScaler), sklearn.model_selection (train_test_split), sklearn.feature_selection (SelectKBest), sklearn.linear_model (LinearRegression, Ridge), sklearn.tree (DecisionTreeRegressor), sklearn.ensemble (RandomForestRegressor, GradientBoostingRegressor), seaborn (histplot, boxplot, scatterplot, lineplot, heatmap, barplot), match-case statement, swifter, os.system, os.path, gdown, XGBoost, merge, concat, EDA, feature engineering, feature importance
Проект 6. Задача кластеризации	Построение модели кластеризации клиентов на основе их покупательской способности, частоты заказов и срока давности последней покупки, идентификация покупательского профиля каждого из кластеров	sklearn.model_selection (train_test_split, GridSearchCV), sklearn.metrics (silhouette_score, calinski_harabasz_score, davies_bouldin_score, accuracy_score), sklearn.preprocessing (MinMaxScaler, StandardScaler), sklearn.pipeline (Pipeline), sklearn.ensemble (RandomForestClassifier, GradientBoostingClassifier), sklearn.cluster (KMeans, AgglomerativeClustering), sklearn.mixture (GaussianMixture), sklearn.decomposition (PCA, explained_variance_ratio_), sklearn.manifold (TSNE, kl_divergence_), seaborn (barplot, scatterplot, lineplot), plotly (box, Scatterpolar), match-case statement, recursion, gdown, os.path, EDA, feature engineering, pivot_table, regex

⬆️вверх ↑

Практические работы

Название проекта	Описание	Стек и инструменты
Проект 0.1. Модуль: PYTHON-8. Инструменты для Data Science	Реализация алгоритма самого быстрого перебора чисел и угадывание загаданное компьютером число за минимальное количество попыток. Отработка навыков взаимодействия с Git-Github, настройка .gitignore, импорт собственных модулей python в Jupyter	Jupyter, import, git, python, gitignore
Проект 0.2. Модуль: PYTHON-13. Визуализация данных	Выяснение основных причин оттока клиентов и анализирование, чем ушедшие клиенты отличаются от лояльных и как между собой связаны различные признаки, определяющие клиентов. Подготовка рекомендаций к отчёту для банка, разрабатывающего кампанию лояльности по удержанию клиентов	plotly (pie, box, histogram, scatter, sunburst, bar, choropleth), seaborn (heatmap), pivot_table, EDA, feature engineering
Проект 0.3. Модуль: EDA-4. Статистические тесты	Выполнение статических тестов, проверка данных на нормальность и на наличие взаимосвязи	scipy.stats (shapiro, normaltest, pearsonr, spearmanr, ttest_ind, mannwhitneyu, ranksums), seaborn (kdeplot, heatmap), statistics (median), concat, correlation matrix, EDA, p-value
Проект 0.4. Модуль: EDA-5. A/B-тестирование	Анализ эффективности вариантов посадочной страницы в туристической компании	statsmodels.stats.proportion (proportions_ztest), scipy.stats (norm.ppf, t.ppf, shapiro, ttest_ind), seaborn (lineplot, heatmap), pivot_table, correlation matrix, EDA, feature engineering, cumsum, cumulative metrics, p-value, confidence intervals
Проект 0.5. Модуль: EDA-6. Проектирование экспериментов	Взаимодействие с платформой Comet.ml, логирование экспериментов	sklearn.preprocessing (MinMaxScaler), sklearn.linear_model (LogisticRegression), sklearn.metrics (accuracy_score), category_encoders (OneHotEncoder, BinaryEncoder), seaborn (heatmap, countplot), comet_ml (Experiment), concat, API kaggle
Проект 0.6. Модуль: ML-3. Обучение с учителем: классификация	Построение модели - классификатора, позволяющей своевременно определять уходящих клиентов банка, оценка качества построенных моделей	sklearn.metrics (f1_score, classification_report, recall_score, precision_score, accuracy_score), sklearn.preprocessing (MinMaxScaler, PolynomialFeatures), sklearn.linear_model (LogisticRegression), sklearn.tree (DecisionTreeClassifier), sklearn.ensemble (RandomForestClassifier), sklearn.model_selection (train_test_split), seaborn (barplot), EDA, feature engineering
Проект 0.7. Модуль: ML-6. Отбор и селекция признаков	Построение модели линейной регресии, предсказывающей стоимость автомобиля, оценка качества построенных моделей	sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score), sklearn.linear_model (LinearRegression), sklearn.model_selection (train_test_split), sklearn.feature_selection (RFE, SelectKBest, f_regression), feature engineering, wget
Проект 0.8. Модуль: ML-6. Отбор и селекция признаков	Построение модели классификации пользователей и определение лучшего способа кодирования данных в процессе подготовки данных. Закрепление Comet.ML на практике, логирование экспериментов	sklearn.metrics (accuracy_score, confusion_matrix, roc_curve, roc_auc_score), sklearn.preprocessing (OneHotEncoder, LabelEncoder), sklearn.linear_model (LogisticRegression), comet_ml (Experiment), wget, EDA, feature engineering, TP, FP, TN, FN
Проект 0.9. Модуль: ML-7. Оптимизация гиперпараметров модели	Построение моделей, предсказывающих биологический ответ молекул по их химическому составу, подбор гиперпараметров моделей	sklearn.metrics (f1_score), sklearn.linear_model (LogisticRegression), sklearn.ensemble (RandomForestClassifier), sklearn.model_selection (train_test_split, cross_validate, GridSearchCV, RandomizedSearchCV, cross_val_score), hyperopt (hp.choice, hp.uniform, space_eval), optuna (Trial, study), seaborn (countplot), try-except statement, cross validation, EDA
Проект 0.10. Модуль: MATH_ML-2. Линейная алгебра в контексте линейных методов	Построение регрессионной модели, прогнозирующей выработку газа на скважине на основе остальных характеристик скважины, и интерпретация результатов - рекомендации владельцу скважины	collections (OrderedDict), sklearn.metrics (mean_absolute_percentage_error), sklearn.preprocessing (StandardScaler, PolynomialFeatures), sklearn.linear_model (LinearRegression, Lasso, Ridge, ElasticNet), sklearn.model_selection (cross_validate, cross_val_score), optuna (Trial, study), seaborn (histplot, regplot, heatmap), numpy.linalg (norm, matrix_rank, det, inv), numpy (column_stack, hstack, corrcoef, printoptions, ones_like, ones, triu), with statement, match-case statement, correlation matrix, cross validation, EDA, feature engineering, SQLite, regularization L1-L2
Проект 0.11. Модуль: MATH_ML-6. Математический анализ в контексте задачи оптимизации	Реализация алгоритмов координатного спуска и стохастического градиентного спуска, оценка качества полученных моделей	sklearn.metrics (mean_squared_error, mean_absolute_error), sklearn.linear_model (LinearRegression), numpy.linalg (norm), numpy (hstack, ones, zeros, std, append, full, inf), os.path
Проект 0.12. Модуль: MATH_ML-7. Наивный байесовский классификатор	Реализация классификатора спам-сообщений, подбор гиперпараметра модели	sklearn.metrics (classification_report, roc_curve), sklearn.model_selection (train_test_split, GridSearchCV), sklearn.naive_bayes (ComplementNB), sklearn.feature_extraction (text.CountVectorizer), seaborn (countplot, lineplot), numpy (nan), EDA, feature engineering, regex
Проект 0.13. Домашнее задание. Модуль: MATH_ML-13. Временные ряды	Анализ ВВП африканской страны Гана, расчёт волатильности, подбор гиперпараметров временных моделей	sklearn.linear_model (LinearRegression), sklearn.model_selection (GridSearchCV, TimeSeriesSplit), sklearn.metrics (mean_absolute_error, mean_absolute_percentage_error, mean_squared_error, r2_score), statsmodels.tsa (seasonal, arima.model, stattools.adfuller), statsmodels.graphics.tsaplots (plot_acf, plot_pacf), pmdarima (auto_arima), arch.univariate (arch_model), seaborn (lineplot), time series, AIC, MASE, correlogram, gdown, os.path, cross validation, EDA, rolling, interpolation, stationarity, SMA, ARIMA, GARCH

Общий стэк для всех проектов: pandas, numpy, matplotlib.

⬆️вверх ↑

Лицензия

Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Name		Name	Last commit message	Last commit date
Latest commit History 586 Commits
PROJECT-0.1		PROJECT-0.1
PROJECT-0.10		PROJECT-0.10
PROJECT-0.11		PROJECT-0.11
PROJECT-0.12		PROJECT-0.12
PROJECT-0.13		PROJECT-0.13
PROJECT-0.2		PROJECT-0.2
PROJECT-0.3		PROJECT-0.3
PROJECT-0.4		PROJECT-0.4
PROJECT-0.5		PROJECT-0.5
PROJECT-0.6		PROJECT-0.6
PROJECT-0.7		PROJECT-0.7
PROJECT-0.8		PROJECT-0.8
PROJECT-0.9		PROJECT-0.9
PROJECT-1		PROJECT-1
PROJECT-2		PROJECT-2
PROJECT-3		PROJECT-3
PROJECT-4		PROJECT-4
PROJECT-5		PROJECT-5
PROJECT-6		PROJECT-6
PROJECT_final		PROJECT_final
.gitignore		.gitignore
LICENSE.md		LICENSE.md
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data Science

Выпускная работа

Проекты

Практические работы

Лицензия

About

Releases

Packages

Languages

License

yaroslav-vorobyov/SF_DST

Folders and files

Latest commit

History

Repository files navigation

Data Science

Выпускная работа

Проекты

Практические работы

Лицензия

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages