Skip to content

Latest commit

 

History

History
52 lines (36 loc) · 3.57 KB

algorithm_guide.md

File metadata and controls

52 lines (36 loc) · 3.57 KB

Описание процесса обучения модели

Содержание

Предобработка данных

Исходный датасет состоит из 127469 записей и 28 атрибутов (признаков). Он содержит множественные пропуски и требует дополнения данных, также необходимо решить какие из признаков по нашему мнению следует использовать в процессе обучения.

По итогам проведенного анализа было выделено 14 важных признаков:

  • Уставной капитал
  • Основной ОКВЭД
  • Кол-во дополнительных ОКВЭДОВ
  • Нормализованно Кол-во сотрудников
  • Система налогообложения
  • Отношение оборотов
  • Нормализованно Доходы (тыс, руб.)
  • ЗСК
  • Мошенники
  • Сервисы регистраторы
  • Вся негативная информация
  • Нормализованно Налоговая нагрузка
  • Оценка надежности
  • Нормализованно Возможная сумма при 3%

Они используются для расчета целевой переменной score, по которой будет определяться вердикт result - выдавать кредит или нет.

Новые признаки [Оценка надежности] и [Нормализованно Возможная сумма при 3%] были взяты с сайта по проверке контрагентов vbankcenter. Также признаки [Основной ОКВЭД], [Нормализованно Кол-во сотрудников], [Нормализованно Доходы (тыс, руб.)] могут быть взяты с этого сервиса.

Для обучения были использованы лишь 20000 дополненных записей.

Обучение модели

Задача была определена как бинарная классификация, для решения которой использовалась библиотека CatBoost.

Как target был выбран result. Обучение проводилось на описанных выше признаках, за исключением [ЗСК], так как если учитывать его в процессе, то модель слишком сильно переобучалась (accuracy=0.9999).

В итоге получен следующий результат по определению надежности клиента:

  • 1 - Выдаем кредит
  • 0 - Не выдаем

Представлены два графика, отражающих важность каждого фактора при принятии решения: