Министерство образования и науки Российской Федерации
МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ
(государственный университет)
ФАКУЛЬТЕТ АЭРОФИЗИКИ И КОСМИЧЕСКИХ ИССЛЕДОВАНИЙ
ИНСТИТУТ СИСТЕМНОГО АНАЛИЗА РАН
(Специализация «Системный анализ и управление»)
Системный анализ методов принятия решений по выдаче кредита
Выпускная квалификационная работа
г. Долгопрудный
2015
Содержание
- Введение
- 1. Постановка задачи
- 2. Обзор источников
- 2.1 Существующие методы
- 2.2 Проблема существующих методов
- 3. Методика решения задачи
- 3.1 Общая структура модели
- 3.2 Основные этапы анализа данных
- 4. Формулировка задачи
- 4.1 Математическая формулировка
- 4.2 Исходные данные
- 4.2 Алгоритм расчета
- 5. Результаты
- 6. Анализ результатов
- 6.1 Интерпретация полученных результатов
- 6.2 Основные результаты
- Заключение
- Список использованной литературы
- Приложение А
Введение
Кредитование в банках — это соблюдение определенных практикой правил, которые включают следующие основные этапы:
· Рассмотрение кредитной заявки
· Собеседование с заемщиком,
· Изучение кредитоспособности
· Оценка кредитного риска
· Подготовка и заключение кредитного договора.
Кредитные риски допускают вероятность убытков в связи с несвоевременным погашением долга и неуплатой процентов. Поэтому в последнее время производится тщательный отбор заемщиков. Критерии, по которым производится оценка кредитора, индивидуальны для каждого банка и основываются на его практике.
Оценка кредитного риска представляет собой творческий процесс, требует от работников банков знаний, аналитического мышления, умения определять и оценивать тенденции в хозяйственной деятельности и финансовом положении заемщиков, их возможность соблюдать принципы кредитования, прогнозировать будущее состояние дел заемщика, способности возврата кредита. Возврат банковских ссуд означает своевременное и полное погашение заемщиками выданных им ссуд и соответствующих сумм процентов за пользование заемными средствами.
Обеспечение возврата кредита — это сложная целенаправленная деятельность банка, включающая систему организованных экономических и правовых мер, составляющих особый механизм, определяющий способы выдачи ссуд, источники, сроки и способы их погашения, документацию, обеспечивающую возврат ссуд.
Данная работа изучает существующие методы на которых основана оценка клиентов банка, каким образом банки взвешивают кредитные риски и какие параметры влияют на положительное решение банка.
В данной области существует ряд проблем, которые не имеют универсального решения. Они существуют как на стороне банка, которому в условиях неопределенности, текущей экономической ситуации и снижающихся доходах населения необходимо сохранять, а в наилучшем варианте и наращивать прибыльность своего кредитного портфеля, так и на стороне клиентов, для которых получение заёмных средств стало более затруднительным.
В банковском бизнесе одной из самых доходных статей являются кредитные операции. За их счет формируется большая часть чистой прибыли банка. Одним из главных условий, способствующих развитию российской экономики, считается создание возможностей для наиболее широкого доступа населения страны к финансово-кредитным ресурсам. Рынок кредитования граждан страны это неотъемлемая составляющая стабильности экономики, важный фактор по ускорению ее роста, обеспечению увеличивающегося спроса на банковские услуги высокого качества. Развитие экономики страны, расширение производства дает возможность для роста объема востребованных товаров. Вот почему данная проблема актуальна.
1. Постановка задачи
Цель выпускной квалификационной работы — с помощью разработанного подхода повысить надежность метода оценки клиентов для снижения рисков при выдаче кредита, путем определения ключевых параметров, влияющих на принятие решения, а также построение методов автоматизации с целью сокращения времени на принятия решений.
В ходе выполнения работы были поставлены следующие задачи:
· Провести анализ факторов и существующих методов для принятия решений в предметной области;
· Определить функциональные зависимости, возможную избыточность и достаточные условия применимости используемых параметров;
· Сравнить эффективность работы алгоритмов (в т.ч. скоринговых), выявляющих ключевые параметры для оценки кредитоспособности клиента:
· Построить классификацию зависимостей ключевых параметров клиента на основе сравнения работы алгоритмов построения ассоциативных правил.
Новизна работы состоит в предложенном варианте сокращения времени на принятие окончательного решения по выдаче заемных средств с помощью применения разработанных алгоритмов по сравнению с уже существующими.
В процессе выполнения поставленных задач были выделены следующие этапы:
1. Формулировка математической модели системы,
2. Численная и программная реализация,
3. Определение параметров модели
4. Проведение экспериментов на реальных данных.
Общей проблемой дипломной работы является отсутствие единого типового клиента, для которого была бы применима единая оценка кредитоспособности, поэтому актуально применение методов сегментации клиентов на начальном этапе.
Частная проблема исследования — это выявление ключевых параметров клиента, влияющих на его способность погасить заем.
Предмет исследования потребительское кредитование в российской федерации. Объект исследования — автоматизация процесса принятия решения.
2. Обзор источников
В практике российских и зарубежных банков применяются различные подходы к определению кредитного риска физических лиц, начиная с субъективных оценок кредитными экспертами коммерческих банков и заканчивая автоматизированными системами оценки риска. Большинство зарубежных банков в своей практике используют два метода оценки кредитоспособности заемщиков.
2.1 Существующие методы
Экспертные системы оценки
Оценка осуществляется человеком на основе личных качеств потенциального заемщика, его финансового состояния, кредитной истории потенциальных заемщиков.
Недостатками данного метода является:
· Трудность объективности и прозрачности принятия решений;
· Снижение скорости принятия решений при больших объемах информации;
· Высокие затраты на высококвалифицированных экспертов.
В связи с этим банки проявляют повышенный интерес к таким системам оценки риска, которые позволили бы минимизировать участие экспертов и влияние человеческого фактора на принятие решений
Балльные системы оценки кредитоспособности клиентов
Балльные системы оценки кредитоспособности клиентов — это методы, которые используют накопленную базу данных заемщиков для установления критериального уровня оценки заемщика.
Методы балльной оценки обладают рядом свойств, которые позволяют проанализировать большой объем кредитных заявок, сократив, операционные расходы, время на обработку и финальное решение. Такой метод называется скорингом.
Скоринг представляет собой математическую или статистическую модель, с помощью которой на основе кредитных историй других клиентов банк пытается определить, насколько велика вероятность того, что конкретный потенциальный заемщик вернет кредит в срок.
Скоринговая оценка основывается на различных характеристиках клиентов, к примеру: доход, возраст, профессия, семейное положение и т.д. В результате анализа факторов рассчитывается интегрированный показатель, дающий представление о степени кредитоспособности заемщика, исходя из набранных в ходе анализа баллов. В зависимости от балльной оценки принимается решение о выдаче кредита и его параметрах, либо об отказе в предоставлении кредита.
Оценка кредитоспособности заёмщика по уровню доходов осуществляется на основе данных о доходе физического лица и вероятности потери этого дохода. Доход определяется исходя из справок о заработной плате или налоговой декларации, после чего корректируется с учетом обязательных платежей и коэффициентов риска банка.
Кредитная история представляет собой сведения о получении и погашении потенциальным кредитополучателем кредитов в прошлом. С целью формирования кредитных историй в странах создаются и функционируют кредитные бюро.
В системах скоринга обычно применяют дискриминантные модели или аналогичный по сути метод логистической регрессии. В данных моделях используются несколько переменных, дающих в сумме цифровой балл каждого потенциального заемщика.
Таким образом, скоринг не отвечает на вопрос, почему заёмщик не платит. Он выделяет те характеристики, которые наиболее тесно связаны с ненадежностью или, наоборот, надежностью клиентов определенного возраста, определенной профессии, образования, таким же числом иждивенцев и т.д. В этом заключается дискриминационный характер скоринга: человек, по формальным признакам близкий к группе с плохой кредитной историей, скорее всего, получить кредит не сможет.
Статья Клейнер Г.Б., Коробов Д.С. История современного кредитного скоринга. Выпуск 17. Проблемы региональной экономики обобщает информацию по различным видам скоринга.
Основными видами скоринга в современной российской банковской практике являются следующие:
Application-скоринг(Оценка заявки на кредит)
Данный вид скоринга используется при выдаче займа или при выпуске кредитной карты. Заключение о предоставлении кредита может выдаваться автоматически.
Для принятия системой того или иного решения клиенту предлагается заполнить анкету. Ответы оцениваются в баллах и складываются. В результате полученная сумма сравнивается с минимальным необходимым значением. Если потенциальный заемщик набрал баллов больше определенного уровня, то он получает одобрение займа, если меньше — то отказ. В спорных или пограничных случаях решение, как правило, принимается индивидуально.
В разных системах тест на кредитоспособность может существенно различаться. Каждый банк оценивает своих клиентов по-своему, исходя из опыта работы с разными категориями заемщиков. Тем не менее есть и общие для большинства из них моменты. Так, наличие работы и дохода, постоянная регистрация, отсутствие судимостей — условия чаще всего обязательные.
Наряду с анкетными данными скоринговые модели банков часто учитывают также ответы на вопросы относительно заявителя самих банковских сотрудников. В этом случае может быть учтен ряд дополнительных факторов, таких как адекватность клиента, его внешний вид и пр.
Идеальной схемы «правильных ответов» и линии поведения потенциального заемщика не существует. Во-первых, представления об идеальном клиенте у всех банков разные. А во-вторых, системы оценки постоянно совершенствуются и учитывают опыт возврата кредитов, выдаваемых разным категориям.
Системы оценки кредитоспособности клиентов могут не только давать положительный или отрицательный ответ, но также рекомендовать сроки кредитования и индивидуальные ставки исходя из показателей надежности.
Кроме того, аpplication-scoring системы взаимодействуют с программами behavioral-scoring, анализирующими финансовые действия заемщиков, а также с fraud-scoring, которые призваны предотвращать прямое мошенничество.
Fraud-скоринг
Fraud scoring представляет собой методологию и процессы по выявлению и предотвращению мошеннических действий со стороны потенциальных и уже существующих клиентов-заемщиков. Скоринг по выявлению попыток мошенничества помогает принимать незамедлительные решения по определению тех заемщиков, чьи обращения по выдаче кредита должны быть отклонены, либо отложены для более детального рассмотрения.
Это целый ряд процедур:
· Проверка информации по «черным» и «серым» спискам
Выбранные поля анкеты заемщика проверяются на совпадение/схожесть с данными в черных/серых списках мошеннических сделок/организаций и т.п.
· Проверка информации на «внутреннюю» непротиворечивость
По имеющимся в анкете полям со связанной информацией (дата рождения — ИНН, наличие недвижимости — коммунальные платежи, аренда недвижимости — арендная плата и т.п.) проверяется внутренняя непротиворечивость анкеты.
· Проверка информации на «внешнюю» непротиворечивость и соответствие бизнес-правилам.
Имеющиеся в анкете данные анализируются с помощью экспертных бизнес-правил (например, дата выдачи паспорта — не выходной день, указание дополнительных доходов — минимальный учитываемый доход), а также сверяются с имеющейся информацией в базе заявок или информационных базах банка (валидность адресов, предприятий, анализ предыдущих анкет и/или заявок)
· Проверка информации на наличие «общих» выбросов
Сравнение показателей из анкеты с общим распределением по портфелю — «штрафные» баллы за попадание в «критический» хвост распределения или статистически мелкую категорию.
· Проверка информации на наличие выбросов в рамках выделенной области «клиентов»
Сравнение показателей из анкеты с данными, отобранными по критерию. Например, проверка на «выброс» зарплаты в сравнении с данными по предприятию, по отрасли, по региону и т.п.
· Скоринг на потенциально мошенническое действие
Использование классифицирующей модели, которая на основе анкетных данных, а также результатов проверки правил определяет вероятность мошеннических сделок.
· Скоринг на близость к «идеальному» заемщику
· Использование моделей «схожести» (k-NN, SOM etc.), которые на основе анкетных данных и результатов срабатывания правил определяет степень схожести клиента с идеальным.
Fraud-скоринг представляет собой совокупность многочисленных процедур, которые позволяют отсечь мошенников.
Collection-скоринг
С ростом клиентской базы и объемов оказываемых услуг, кредитные организации рано или поздно сталкиваются с необходимостью сбора просроченной задолженности. Долги могут появляться как на счетах клиентов, так и у контрагентов, поставщиков, партнеров. Эффективность бизнес-процессов по управлению дебиторской задолженностью во многом влияет на финансовую стабильности компании, а также на уровень текущих и возможных рисков.
Чтобы не допустить лавинообразного роста просроченных долгов, компаниям необходимо решить сложную задачу — выработать и последовательно выполнять такую стратегию работы с должниками, которая позволит, с одной стороны, сохранить лояльность прибыльных и перспективных клиентов, а с другой — максимизировать объем собранной просрочки, при жестком ограничении затрат на мероприятия по сбору.
Collection-скоринг определяет приоритетные направления работы с неблагополучными заемщиками. По сути это работа с просроченной задолженностью. В случае задержки выплат по кредиту банк начинает работать с заемщиком, напоминая о необходимости погашения долга. Чем дольше задержка, тем настойчивее ведет себя банк. Так продолжается до тех пор, пока дело не попадает в коллекторское агентство или суд.
Вероятность возврата долга зависит от многих факторов, часть из которых известна и может быть оценена статистически. Накопленная информация, разнообразные методы Data Mining и планирование экспериментов (DOE) позволяют создать эффективные математические (скоринговые) модели для оценки вероятности взыскания задолженности, прогноза размера возврата и определения наилучшего способа взыскания.
Collection scoring модели учитывают, как минимум, следующие факторы:
· Демографические данные дебитора
· Предполагаемый или достоверно известный уровень доходов и расходов, имущественное положение
· Наличие надежных контактных и идентификационных данных (ФИО, паспортные данные и др.)
· История взаимодействия с дебитором, например, примененные ранее коллекторские воздействия
· История поведения, использования услуг, начислений, штрафов и т.д.
· Планируемое коллекторское воздействие
В отличие от экспертных оценок, статистический скоринг объективно оценивает всю совокупность факторов риска, легко масштабируется и помогает выстроить оптимальную стратегию работы с должниками на любом уровне.
Средства углубленной аналитики позволяют оценить экономический эффект от проведения коллекторской компании до ее непосредственного запуска. Экономический эффект зависит от объема долга, прогноза сроков и размера возврата задолженности, а также от затрат на соответствующие мероприятия. Банки применяя скоринговые модели к прошлым кредитам, могут оценить величину потерь, которых удалось бы избежать за счет повышенной точности анализа кредитных заявок.
Behavioral-scoring (поведенческий скоринг)
Поведенческий скоринг — это динамическая оценка состояния кредитоспособности существующего заемщика, основанная на данных об истории операций по его счетам (график погашения задолженности, запросы новых кредитов, оборот по текущим счетам, и т.п.).
Результатом поведенческого скоринга обычно является предложение банка воспользоваться иными банковскими услугами: кредитная карта, кредит наличными по сниженной процентной ставке, автокредитование и др. Одобрение последующих кредитов в банке для заемщика — это также результат успешного преодоления поведенческого скоринга
На рис. 2.1 хорошо показана взаимосвязь элементов скоринга на различных этапах жизненного цикла заемщика:
Рис. 2.1 Использование банком скоринговых моделей на различных этапах оценки клиентов
Согласно аналитическому анализу портала kreditovich.ru на финальное решение банка влияют следующие факторы
Схема 2.1. Факторы влияющие на положительный ответ кредитного скоринга
2.2 Проблема существующих методов
Существующие методы оценки кредитоспособности клиента не идеальны. В скоринговой модели оценки можно выделить следующие недостатки:
· Децентрализованность системы оценки;
· Сложность осуществления быстрых решений департамента риска кредитной организации — смена или корректировка методики оценки превращается в длительную процедуру для большого количества точек обслуживания;
· Невозможность построения сложной стратегии принятия решения;
· Скоринговые модели основаны на экспертных знаниях кредитных аналитиков банка, что ограничивает качество моделей и опосредованно сокращает клиентскую базу;
· Возможность обмануть методику оценки — любой человек, имеющий определенные навыки, может «взломать» методику оценки и в дальнейшем «подстроиться» под «хорошего» заемщика. Это касается не только рисков мошенничества, но и «помощи» заемщикам со стороны кредитных инспекторов (нельзя забывать, что эти по большей части низкооплачиваемые сотрудники стремятся к максимальному объему привлеченных кредитов, никак не отвечая за их возврат).
· Мониторинг — Скоринговые модели создаются на основе исторических данных, но со временем могут терять точность, из-за постоянно меняющихся внешних и внутренних условий (экономическая ситуация в мире, на уровне государства, отдельных отраслей, новые схемы мошенничества итд). Для того чтобы статистический скоринг стабильно выдавал достаточно точные и устойчивые прогнозы, необходим постоянный мониторинг и оценка качества работы моделей, а также их обновление при необходимости.
Систематизированное сравнение подходов к оценке клиента представлено в Таблице 1.
Критерии |
Типовой подход к оценке заемщика |
Система кредитного скоринга |
|
Первичная обработка кредитной заявки |
Основывается на экспертных знаниях кредитного специалиста |
Основывается на объективной информации из различных источников |
|
Процесс оценки идентичных заявок |
Рассмотрение каждой заявки зависит от конкретного кредитного специалиста и субъективных факторов |
Идентичные заявки проходят идентичную процедуру оценки |
|
Легкость восприятия |
«Уже используется», результаты ожидаемы |
Необходимы культурные перемены, готовность сотрудников к нововведениям |
|
Процесс внедрения |
Длительное обучение и тренировка каждого кредитного специалиста. Наработка опыта и интуиции |
Не требует длительного обучения сотрудников. При внедрении необходим контроль со стороны кредитных специалистов высшего звена |
|
Возможность ошибок, злоупотреблений и мошенничества |
Ошибки возможны в силу человеческого фактора. Злоупотребления и мошенничество возможны и распространены |
Злоупотребления возможны только на уровне высшего звена кредитных специалистов. Ошибки могут быть связаны с некачественными скоринговыми моделями. Мошенничество возможно, однако его вероятность заметно снижается |
|
Гибкость |
При внедрении нового кредитного продукта необходима разработка новых инструкций и обучение персонала. Процесс длительный и мало поддающийся контролю |
При внедрении нового кредитного продукта необходимо создание новых скоринговых моделей и стратегий (или внесение изменений в уже имеющиеся). Процесс полностью контролируемый. Качество вновь созданных моделей (стратегий) может быть проверено без запуска в работу. Дополнительное обучение персонала не требуется |
Таблица 2.1. Сравнение экспертной и бальной оценки кредитоспособности клиента
3. Методика решения задачи
3.1 Общая структура модели
Поставленная задача должна решить следующие проблемы:
· Повысить надежность существующей кредитной политики банка и снизить кредитный риск.
· Сократить время на принятия решения банком
· Автоматизировать процесс принятия решения по клиенту
· Сравнить методы интеллектуального анализа данных
Анализ будет состоять из двух частей. Первая часть заключается в анализе базы данных клиентов банка, у которых имеется кредит. Скоринговая модель будет относится к типу поведенческого скоринга. Ключевым показателем является показатель списания клиента за первый год владения кредитным продуктом. Показатель в базе данных «Ever W/O @12 MOB» является показателем булевого типа. Результатом первого этапа будет набор параметром, полученный на обучающей выборке клиентов, которым банк выдал кредит в 2012 году. Второй этап это применение алгоритма к тестовой выборке за 2013 год. Третий этап заключается в применении полученных знаний и использования их для предложенного метода автоматизации принятия решения.
3.2 Основные этапы анализа данных
Можно выделить следующие основные этапы анализа данных:
· Подготовка данных для анализа.
Проведена нормализация данных: приведение параметров к булевому типу, числовому и текстовому, характеризующих данную область данных о клиенте. После выбора параметров, данные представляют собой прямоугольную таблицу, где каждая запись представляет клиента с набором характеристик, свойств и показателей.
· Из массива данных удалены данные, которые являются неинформативными, либо дублируют ключевой показатель.
Кроме того, сокращение количества полей позволяет сократить время обработки данных. Это позволяет избавиться от избыточности данных. База данных очищена от ошибок, дефектов и полей без значений.
· Применение методов поиска ассоциативных правил: алгоритм apriori, DHP, предикативный анализ.
· Верификация и проверка получившихся результатов.
· Использование полученной информации и применение ее в работе банка.
4. Формулировка задачи
4.1 Математическая формулировка
Модель алгоритма априори, его математическая составляющая описана в источниках [1-2]. Краткое обоснование используемых терминов и понятий дано ниже.
Правило X->Y имеет поддержку s (support), если s клиентов из D, содержат пересечение множеств X и Y. Достоверность правила показывает какова вероятность того, что из X следует Y. Правило X->Y справедливо с достоверностью c (confidence), если c транзакций из D, содержащих X, также содержат Y, conf(X-> Y) = supp(X->Y)/supp(X ).
Рассмотрим принятую формальную постановку задачи поиска ассоциативных связей, введем базовые термины и опишем формализмы, используемые в существующей литературе по этой проблематике. Пусть -база данных клиентов банка, — произвольный клиент, -множество всех свойств и характеристик клиентов, которые используются для обозначения объектов в базе данных клиентов множества , -подмножество свойств и признаков из множества X, и — подмножество множества данных клиентов из множества , каждая из которых содержит множество признаков в качестве подмножества. Для характеристики статистических свойств подмножества A в базе данных обычно используют отношение мощности множества к мощности всего множества клиентов . Эту величину принято называть поддержкой (support) подмножества во множестве клиентов :
. |
(1) |
Порогом уверенности = и порогом поддержки = (, — ассоциативное правило) существуют, если справедливы следующие неравенства
, , |
(2) |
где — количество клиентов во множестве , которые содержат объединение множества символов подмножеств и . Модель ассоциативного правила вида (2), принято называть моделью типа поддержка-уверенность. Подмножество элементов принято называть посылкой правила , а подмножество — его следствием. Иногда эти подмножества называют паттернами (patterns). В задачах ассоциативной классификации заключение правила может содержать только однолитерный паттерн, например, метку одного из классов. Однолитерным может быть также и паттерн . Те же обозначения и термины используются и при поиске ассоциативно или причинно связанных атрибутов. Задача поиска ассоциативных правил является здесь центральной задачей.
Кроме того, стоит отметить свойство антимонотонности. Поддержка любого набора элементов не может превышать минимальной поддержки любого из его подмножеств. Данное свойство служит для снижения размерности пространства поиска. Не имей мы в наличии такого свойства, нахождение многоэлементных наборов было бы практически невыполнимой задачей в связи с экспоненциальным ростом вычислений.
4.2 Исходные данные
В качестве исходных данных имеется массив (компакт в метрическом пространстве) значений случайных величин — параметров системы , представленных в приложении в таблице 1. В таблице 17 столбцов (полей, соответствующих указанным показателям ,…,) и примерно 37000 записей. В терминах предметной области эти величины обозначают характеристики клиента:
— сегмент, программа по которой был привлечен клиент
— более глубокая сегментация
— способ подтверждения дохода клиентом
— код рекламной компании, по который был привлечен клиент в банк
— группа риска клиента, которая присваивается на основе его поведенческого и оценочного скоринга
— канал привлечения клиента
— категория компании работодателя
Х8 — профайл в бюро кредитных историй
Х9 — диапазон дохода
Х10 — диапазон кредитной линии
Х11 — показатель, что клиент списался
Х12 — возраст
Х13 — опыт работы
Х14 — срок кредита
Х15 — ставка кредита
Х16 — долговое бремя
Х17 — показатель является ли клиент сотрудником банка
Входные данные описывают «перформанс» — поведение клиента в рамках выданного кредитного продукта. Значения в столбцах представляют собой характеристические показатели клиента. Каждая строка представляет собой всех клиентов, которым был выдан кредит за взятый промежуток времени.
orig_segment — Сегмент, Программа, по которой был привлечен клиент
CorporateКорпоративный сегмент. Клиенты находятся на зарплатном проекте банкаSalariedЗарплатный сегмент. Клиенты подтверждают доходSurrogatesСуррогатный сегмент. Клиент вменяется доход на основе предоставленных документовTopUpСегмент перекредитования. Клиенты, у которых есть открытый кредит берут дополнительные средстваXsell to CC6+Сегмент Перекрестных продаж на кредитные карты. |
orig_subsegment — Сегментация на уровень глубже
Corporate |
New to payroll |
Клиенты, компания работодатель которых не находится на зарплатом проекте в банке, но клиент находится на индивидуальном зарплатном обслуживании |
|
Payroll pre-qualified |
Клиенты, компания работодатель которых находится на зарплатом проекте в банке |
||
Payroll walk-in |
Клиенты, компания работодатель которых находится на зарплатом проекте в банке, но клиент испольуют другой банк для зарплатного обслуживания |
||
Salaried |
2-NDFL Non-Corp |
Клиенты, подтверждающие доход справкой 2-ндфл |
|
Xsell to inactive CC Salaried |
Клиенты, принявшие условия программы перекрестных продаж на кредитную карту |
||
Surrogates |
Auto Surrogate |
Клиенты, предоставившие в качестве подтверждения дохода документы о владении автомобилем |
|
Foreign Travel |
Клиенты, подтвердившие свой доход заграничным паспортом с поездками за последние полгода |
||
Xsell to Liabilities |
Клиенты, принявшие условия программы перекрестных продаж на балансовые счета |
||
TopUp |
1st Regular TopUp |
Клиенты, взявшие дополнительные средства у бьнка |
|
1st Top Up for Payroll |
Клиенты, взявшие дополнительные средства у банка |
||
1st Top Up on Xsell |
Клиенты, взявшие дополнительные средства у бьнка |
||
TopUp to Former Borrowers |
Клиенты, взявшие дополнительные средства у бьнка, но закрывшие свой кредит |
||
Xsell to CC6+ |
XSell CC6+ with Line Decrease |
Клиенты, принявшие условия программы перекрестных продаж на кредитную карту, с момента открытия которой прошло 6 месяцев |
|
XSell to CC6+ on Demand |
Клиенты, у которых открыта кредитная карта и пожелавшие взять кредит |
INCOME_PROOF — Способ подтверждения дохода клиентом.
Доход определяется на основании следующих документов / следующими способами:
· Чистый месячный/годовой доход клиента, указанный им в заявлении, сверяется со стандартной формой № 2-НДФЛ, выдаваемой и подписываемой работодателем, а также скрепленной его печатью. В форме № 2-НДФЛ должен быть указан доход минимум за 3 последних месяца.
· Доход заявителей из компаний категории «S», привлеченных через Отдел корпоративных продаж, проверяется по разделу заявки, содержащему данные о ежемесячной зарплате, заверенные уполномоченным представителем компании и печатью компании или на основании списков работников от компании (категории «А», «S»), с указанием стажа работы, типа трудового договора и размера месячного заработка, также заверенные уполномоченным представителем компании и печатью компании.
· Доход клиента также может косвенно определяться по наличию заграничной поездки в последние полгода или фактом владения иностранной машиной, которая не старше 8ми лет.
2-NDFL |
Справка 2-НДФЛ |
|
Auto Surrogate |
Документы о владении автомобилеем |
|
Payroll Transactions |
Зарплатные транзакции |
|
Travel Surrogate |
Заграничный паспорт со штампами вьезда и выезда из страны |
|
W/O Documents |
Без подтверждения дохода |
FRAUD_PROFILE — Имеет значение флага. Попадает ли клиент под образ мошенника. В положительном случае ему назначается дополнительная проверка данных.
CAMPAIGN_CODE — Код рекламной компании, по который был привлечен клиент в банк.
RISK_LEVEL — Группа риска клиента, которая присваивается на основе его поведенческого и оценочного скоринга
CHANNEL_OIGINATION — Канал привлечения клиента
COMPANY_CATEGORY — Категория компании работодателя
JOB_DESC — профессия
THICK_THIN — Профайл в бюро кредитных историй
Income_Range — Диапазон дохода
Credit_Line_Range — Диапазон кредитной линии
STAFF_FLAG — Флаг, что клиент является сотрудником
score_range- Диапазон скора
EMP_TIME — Опыт работы (в месяцах)
AGE_NBR — Возраст
INTEREST_RATE — Ставка кредита
TENOR — Срок кредита
Drop_flag_orig_a- Флаг, что данный тип клиента больше не подходит под текущую политику банка
DBR_RANGE — Диапазон долгового бремени
Известные компании |
Категория «A» |
· Крупные стабильные Российские юридические лица — годовой оборот более 500 млн. руб.; · Компании, входящие в список FORBES-2000; · Компании — члены Американской торгово-промышленной палаты и/или Ассоциации Европейского бизнеса; · Посольства иностранных государств; · Компании, находящиеся на зарплатном обслуживании в банке; · Первые75 банков согласно годовому рейтингу РБК (Классификация по активам); · Первые 25 страховых компаний согласно годовому рейтингу РБК (Классификация по поступлениям); · Дочерние (доля 50% + 1 акция) компании компаний А категорий; · Компании, находящиеся на корпоративном обслуживании в банке; · Компании, находящиеся на рассчетно-кассовом обслуживании при условии годового оборота более 100 млн. руб. · Компании, акции которых торгуются на биржах ММВБ/РТС |
||
Категория «S»* (максимум 15000 компаний) |
Отдельные компании для целевого поиска клиентов |
· Средние/Мелкие стабильные Российские юридические лица — годовой оборот от 250 до 500 млн. руб.; · Государственные бюджетные учреждения; · Дочерние (доля 50% + 1 акция) компании компаний S категорий; · 30 крупнейших стабильных компаний (показатель оборота не важен) — в каждом регионе присутствия банка |
||
Прочие |
Категория «B» |
Зарегистрированные компании |
Остальные российские юридические лица, регистрация которых в ЕГРЮЛ подтверждена. |
|
Категория «О» |
Незарегистрированные компании |
Остальные российские юридические лица, регистрация которых в ЕГРЮЛ не подтверждена. |
Стаж работы |
Суммарный стаж на двух последних местах работы должен составлять не менее года и минимум 3 месяца на текущем месте работы. 3 месяца для клиентов, получающих зарплату на счет в банке, для существующих клиентов по программам Перекрестных продажи и увеличение суммы кредита по инициативе банка. |
4.2 Алгоритм расчета
риск кредит решение скоринговый
Алгоритм apriori
Рассмотрим набор клиентов, включающий заданные характеристики. Выразим этот набор с помощью переменных. Обозначим множество характеристик за I — {A, B, C, D..P}
Алгоритм Apriori определяет часто встречающиеся наборы за несколько этапов.
На i-ом этапе определяются все часто встречающиеся i-элементные наборы.
Каждый этап состоит из двух шагов:
1. формирование кандидатов (candidate generation);
2. подсчет поддержки кандидатов (candidate counting).
Рассмотрим i-ый этап. На шаге формирования кандидатов алгоритм создает множество кандидатов из i-элементных наборов, чья поддержка пока не вычисляется. На шаге подсчета кандидатов алгоритм сканирует множество клиентов, вычисляя поддержку наборов-кандидатов. После сканирования отбрасываются кандидаты, поддержка которых меньше определенного пользователем минимума, и сохраняются только часто встречающиеся i-элементные наборы. Во время первого этапа выбранное множество наборов-кандидатов содержит все одно-элементные частые наборы.
Алгоритм вычисляет их поддержку во время шага подсчёта поддержки кандидатов.
Описанный алгоритм можно записать в виде следующего псевдокода:
1. L1 = {часто встречающиеся 1-элементные наборы}
2. для (k=2; Lk-1 <> ; k++) {
3. Ck = Apriorigen(Lk-1) // генерация кандидатов
4. для всех клиентов t T {
5. Ct = subset(Ck, t) // удаление избыточных правил
6. для всех кандидатов c Ct
7. c.count ++
8. }
9. Lk = { c Ck | c.count >= minsupport} // отбор кандидатов
10. }
11. Результат
Обозначения, используемые в алгоритме:
· Lk — множество k-элементных наборов, чья поддержка не меньше заданной. Каждый член множества имеет набор упорядоченных (ij < ip если j < p) элементов F и значение поддержки набора SuppF> Suppmin:
Lk = {(F1,Supp1),(F2,Supp2),…,(Fq,Suppq)},
где Fj = {i1,i2,…,ik};
· Ck — множество кандидатов k-элементных наборов потенциально частых. Каждый член множества имеет набор упорядоченных (ij < ip если j < p) элементов F и значение поддержки набора Supp.
Опишем данный алгоритм по шагам.
Шаг 1. Присвоить k = 1 и выполнить отбор всех 1-элементных наборов, у которых поддержка больше минимально заданной. Suppmin.
Шаг 2. k = k + 1.
Шаг 3. Если не удается создавать k-элементные наборы, то завершить алгоритм, иначе выполнить следующий шаг.
Шаг 4. Создать множество k-элементных наборов кандидатов из частых наборов. Для этого необходимо объединить в k-элементные кандидаты (k-1)-элементные частые наборы. Каждый кандидат будет формироваться путём добавления к (k-1)-элементному частому набору — p элемента из другого (k-1)-элементного частого набора — q. Причем добавляется последний элемент набора q, который по порядку выше, чем последний элемент набора p (p.itemk ? 1 < q.itemk ? 1).
При этом все k-2 элемента обоих наборов одинаковы (p.item1 = q.item1,p.item2 =q.item2,…,p.itemk ? 2 = q.itemk ? 2).
Шаг 5. Для каждого клиента T из множества D выбрать кандидатов Ct из множества Ck, присутствующих в наборе характеристик клиента T. Для каждого набора из построенного множества Ck удалить набор, если хотя бы одно из его (k-1) подмножеств не является часто встречающимся т.е. отсутствует во множестве Lk? 1. Это можно записать в виде следующего псевдокода:
Для всех наборов выполнить для всех (k-1)-поднаборов s из c выполнить если (), то удалить его из Ck
Шаг 6. Для каждого кандидата из Ck увеличить значение поддержки на единицу.
Шаг 7. Выбрать только кандидатов Lk из множества Ck, у которых значение поддержки больше заданной пользователем Suppmin. Вернуться к шагу 2.
Результатом работы алгоритма является объединение всех множеств Lk для всех k.
Таблица 4.1. Схематическое изображение работы алгоритма apriori
Программные средства
Анализ данных производился с помощью программных средств Angos “KnowledgeSeeker”. Ангос использует алгоритмы поиска знаний в больших массивах информации с помощью разных методов анализа данных, таких как предикативный анализ, поиск ассоциативных правил по алгоритму априори и кластеризация данных. Более подробно с описанием данного программного обеспечения можно ознакомиться по ссылке [11].
5. Результаты
Схема 5.1
База данных состоит из 72848 записей. Ключевым заданным параметром стал “EVER_WO_12MOB”, обозначающий списание клиента в течении 12 месяцев. Обучающая база данных состояла из 28411 клиентов, 28110 которых имеют значение «0» в ключевом поле, что составляет 98, 94% процента от всех клиентов в базе данных. По алгоритму поиска ассоциативных правил было построено дерево возможных решений, внутри которого в зависимости от глубины поиска с разными уровнями поддержки были предложены наборы данных. Таким образом, по алгоритму поиска ассоциативных правил был предложен следующий набор данных при уровне поддержки 99%(клиент полностью выплачивает кредит).
Первая ключевая характеристика при списывании клиента — это способ подтверждение дохода. При оценке результатов работы алгоритма рассмотрено влияние характеристики как со стороны уменьшение количества списанных клиентов, так и стороны бизнеса: скольких денег не досчитается банк, если откажет в кредите всем клиентам с данной характеристикой.
Клиенты, подтверждающие свой доход с помощью справки 2-ндфл составляют 22,4% от кредитного портфеля. Среди 6320 клиентов, находится 30,56 % от списанных клиентов, что составляет 92 клиента.
Второй параметр — сумма доходов. При том же уровне поддержки в 99%, «плохими клиентами» являются с низким уровенем дохода, а именно ниже 35000 рублей. Суммарно данная группа составляет 7,64 % клиентов среди списавшихся и 12,04 % от портфеля, учитывая клиентов выплачивающих кредит.
Третьим по глубине фактором является категорий компании. Клиенты, работающие в небольших компаниях или на ИП чаще списывались в просрочку. Около 4% от всех списавшихся клиентов. Однако среди всего портфеля эта цифра занимает совсем маленькую долю- около 1,91%. Из этого следует, что дальнейшее погружение в дерево, не будет давать нам необходимого уровня поддержки.
На последнем шаге уровень достоверности того, что клиент спишется если приходит в банк со справкой 2-НДФЛ, его доход составляет менее 35 000 рублей, и он работает в компании категории О или В, составляет 49 %.
Наиболее высокий уровень поддержки был выявлен для следующего набора характеристик: если клиент подтверждает свой доход с помощью загранпаспорта, либо владением автомобилем, то из этого следует, что в случае когда клиенту будет присвоен уровень риска — высокий, то он спишется с уровнем поддержки 80%. Однако, во всей используемой базе данных количество таких клиентов ровно 5, что составляет 0,02 %.
Сформулируем окончательный набор данных, который говорит нам по результатам выборки о ключевых параметрах, на которые стоит обратить внимание банку при принятии решения:
Таблица 5.2 Предложенные алгоритмом наборы характеристик
{Способ подтверждения дохода, Уровень дохода, Возраст}
{2-НДФЛ, <35000, O,B}
Небольшое присутствие данной группы в кредитном портфеле, говорит о грамотно проводимой политики банка по привлечению клиентов, верной диверсификации рисков. .
Полностью отказаться банку от проблемных групп нельзя ввиду того, что прибыль, которую приносят клиенты с теми же характеристиками, превышает расходы от списаний проблемных клиентов.
Согласно исследованию, наиболее благоприятной группой являются клиенты, подтвердившие свой доход, зарплатой которой перечисляется на счет в банк, выдавший кредит. Для данной группы клиентов, которая является наименее рисковой с точки зрения банка, создана процедура автоматизации принятия решения.
С полностью построенным деревом решений можно ознакомиться в приложении.
6. Анализ результатов
6.1 Интерпретация полученных результатов
Сравним получившиеся результаты с показателями банка, которые зафиксированы на сегодняшний день.
Таблица 6.1. Основные показатели работы банка
В результате апробации алгоритм на тестовой выборке дали схожие результаты.
2012 |
2013 |
2014 |
||
Количество клиентов |
28411 |
20423 |
19763 |
|
Количество списанных клиентов |
301 |
220 |
174 |
|
Количество клиентов которым отказано в кредите |
33352 |
48780 |
36043 |
|
Кооэфициент одобрения |
46,00% |
29,51% |
35,41% |
|
Прибыль от выданных кредитов, млн$ |
620 |
555 |
318 |
|
Сумма потерянных денег, млн$ |
23,43 |
17,44 |
10,05 |
|
Коэфициент потерянных денег |
3,78% |
3,14% |
3,16% |
|
*на май 2015 года |
Таблица 6.2. Основные показатели работы банка после применения алгоритма
Результаты, полученные на модельной выборке данных, подтвердили значимость выявленных ключевых показателей на тестовом множестве данных.
Для поставленной задачи повешения надежности существующих методов оценки клиентов, необходимо проводить осторожную политику выдачи кредитов данному сегменту клиентов, наложить дополнительные ограничения на текущие параметры, соответствующие одобрению выдачи займа.
Помимо совокупного набора характеристик клиента, необходимо учитывать совокупность ранжированного первого показателя по степени поддержки.
Таблица 6.3 Выборка первого параметра ранжирования
После проведения основного эксперимента, тестовая выборка данных была использована как обучающая. Ключевые параметры, выделенные на данных клиентов за 2013 год, имеют различия по сравнению с 2012.
Сложность представляет судить о клиенте по таким параметрам как профессия и сфера деятельности. В российской федерации из-за ограниченного списка профессий, которым полагается пенсионное обеспечение, компании-работодатели указывают в трудовой книжке сотруднике общую специальность. Вследствие чего поле профессия, значение которого банк получает из анкетных данных клиента, содержит большое количество «Специалистов», «Менеджеров», «Аналитиков». Это приводит к невозможности верного анализа данных. Похожая ситуация с полем «NOB». Данная проблема проявляется на группах характеристик, которые обладают разнообразными вариантами параметров. К примеру, род занятий включает в себя 40 различных профессий, в то время как способ подтверждения дохода имеет лишь 6 вариаций. Фокус на параметре размывается, чем объясняется различие.
Проводя анализ применения полученных знаний в ходе работы алгоритма на тестовой выборке, выявлено что прибыль, которую теряет банк, не выдав людям со схожими характеристиками, но исправно выплачивающим кредитам меньше, чем расходы и потери от списанных клиентов. Это подтверждает тот факт, что была выявлена совокупность проблемных характеристик клиентов. Таким образом, на тестовой выборке банк сократил расходы и получил большую прибыль по итогам 2014 года.
Результаты этого исследования внедрены в кредитную политику банка.
Для автоматизации процесса принятия решения были сделаны следующие шаги:
1. Выбран сегмент кредитного портфеля для которого у банка имеются все данные. Основной проблемой банка является узнать верный доход клиента, чтобы правильно рассчитать кредитное предложение. Группа клиентов, доход которых банк знает наверняка, является группа корпоративных клиентов, находящихся на зарплатном обслуживании. На основе транзакций, производимых компанией работодателем, у банка всегда имеется актуальная заработная плата клиента. Помимо этого существует процедура автоматического списания долга с основного счета клиента, в случае если клиент уйдет в просрочку.
2. На основе кредитного скоринга проводимого банкам, результатах исследования формируется база данных клиентов на ближайший месяц для которых будет сформировано кредитное предложение в рамках кредитной политики. Таким образом для каждого кредитного срока будет рассчитана процентная ставка, ежемесячная выплата и максимальная сумма кредита
6.2 Основные результаты
1. Проведен сравнительный анализ методов принятия решений
2. На основе построенных алгоритмов анализа данных выявлены ключевые характеристики клиентов
3. Разработан метод принятия решений, позволяющий сократить время принятия решения в условиях определённости
Заключение
По результатам работы была выполнена цель, а именно повышена надежность метода оценки клиентов, снижен риск при выдаче кредита и определены ключевые параметры влияющие на кредитоспособность и добросовестность выплат. Более того, выполнена и подцель поставленная в ходе работе.
В ходе выполнения выпускной квалификационной работы успешно решены поставленные задачи: проведен анализ факторов и существующих методов для принятия решений в предметной области. Определены функциональные зависимости, возможные избыточность и достаточные условия применимости используемых параметров.
Построена модель, отличающаяся от существующих аналогов. Сокращено время на принятие решения в условиях определенности.
Список использованной литературы
1. Мэйз Э. Руководство по кредитному скорингу, 2008 г. — 464с. ISBN: 978-985-6569-34-3, 1-888998-01-8
2. Пищулин А. Система кредитного скоринга: необходимости и преимущества, Москва, Финансовый Директор, 2008 г.
3. Клейнер Г.Б., Коробов Д.С. История современного кредитного скоринга. Выпуск 17// Проблемы региональной экономики, 2012 №17 с. 6-12
4. Н.В. Бабина «Скоринг как метод оценки кредитного риска потребительского кредитования»// Финансы и кредит, 2007 №3, 30-36
5. Churchill G. A., Nevin J. R., Watson R. R.// The role of credit scoring in the loan decision. Credit World. March/1977
6. Agrawal, R. Srikant. «Fast Discovery of Association Rules», In Proc. of the 20th International Conference on VLDB, Santiago, Chile, September 1994.
7. Булычев А.В. — Системный подход к анализу скрытых закономерностей в больших массивах слабоструктурированных данных, Москва 2010