WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Pages:     || 2 |
-- [ Страница 1 ] --

МОСКОВСКИЙ ИНСТИТУТ ЭЛЕКТРОНИКИ И МАТЕМАТИКИ НИУ ВШЭ

Кафедра __ИТАС_____________________________

ПОЯСНИТЕЛЬНАЯ ЗАПИСКА

к дипломной работе

На тему:  Разработка и реализация методов оценки правдоподобия бинарной классификации

Студент  Ларионов Алексей Александрович _

Руководитель работы Подлесных Валерий Григорьевич _

Допущен к защите _________________________ 2013___г.

КОНСУЛЬТАНТ РАБОТЫ:

Специальная часть: Подлесных Валерий Григорьевич

Зав. кафедрой ________________________

МОСКВА

АННОТАЦИЯ

В данной дипломной работе рассмотрены методы оценки правдоподобия бинарной классификации. В современном бизнесе, экономике, маркетинге, медицине, технике и других отраслях на настоящий момент ставится большое количество задач, связанных с отнесением объекта к одному из двух классов. Оценка правдоподобия бинарной классификации позволяет определить не сам класс, а вероятность того, что наблюдение относится к тому или иному классу, что также очень востребовано с учетом издержек ошибочной классификации.

В работе предложен новый подход к оценке правдоподобия логистической регрессии с использованием шансов вместо вероятностей для расчета коэффициентов логистической регрессии. Оценка шансов производится по базе данных анализируемой предметной области.

Для реализации предлагаемого подхода решены следующие задачи.

  1. Выявлены наиболее целесообразные методы оценки достоверности бинарной классификации с точки зрения применимости к выборке «текучесть абонентской базы».
  2. Модифицирован и реализован метод вычисления коэффициентов логистической регрессии с помощью метода оценки шансов по базе данных для дихотомической и полихотомической входных переменных.
  3. Разработан алгоритм построения ROC-кривых для логистической регрессии с полихотомической входной переменной, позволяющий определить наиболее подходящий предсказывающий атрибут, минимизирующий ошибки при оценке правдоподобия классификации.

СОДЕРЖАНИЕ


Введение 5

Глава 1 Применение логистической регрессии в задачах бинарной классификации 7

1.1 Обзор методов оценки достоверности и правдоподобия 7

1.1.1 Линейная регрессия 7

1.1.2 Логистическая регрессия 9

1.1.3 Простой классификатор Байеса (Naive Bayes) 10

1.1.4 Lift-диаграммы 11

1.1.5 Gain-диаграммы 13

1.1.6 ROC-анализ 15

1.2 Пример простой бинарной классификации с числовой входной переменной 17

1.3 Проблема ошибок 1 и 2 рода и издержек классификации 20

1.4 Метод оценки шансов для нахождения коэффициентов логистической регрессии 22

Глава 2 Постановка задач исследования 24

Глава 3 Теория и практика логистической регрессии в задачах бинарной классификации 26

3.1 Понятие логистической регрессии и сфера ее применения 26

3.1.1 Уравнение логистической регрессии 27

3.1.2 График функции логистической регрессии 28

3.2 Метод максимального правдоподобия для нахождения коэффициентов логистической регрессии 28

3.3 Разработка метода расчета параметров логистической регрессии на основе оценки шансов 33

3.3.1 Разработка метода расчета параметров логистической регрессии на основе оценки шансов для дихотомической входной переменной 36

3.3.2 Разработка метода расчета параметров логистической регрессии на основе оценки шансов для полихотомической (категориальной) входной переменной 39

Глава 4 Разработка и реализация алгоритма для расчета коэффициентов логистической регрессии и ROC-кривых 45

4.1 Разработка алгоритма построения ROC-кривых 45

4.2 Реализация разработанного метода нахождения коэффициентов логистической регрессии и алгоритма построения ROC-кривых 49

4.2.1 Исходные данные программы 49

4.2.2 Реализация алгоритма нахождения коэффициентов логистической регрессии для дихотомической входной переменной 51

4.2.3 Реализация алгоритма нахождения коэффициентов логистической регрессии для полихотомической входной переменной 57

4.2.4 Реализация алгоритма построения ROC-кривых 65

Заключение 73

Список используемой литературы 74

Приложения 76

Приложение 1. Листинг программы 76

Введение

В настоящий момент существует множество методов анализа и классификации, направленных на построение наиболее точных и эффективных математических моделей, которые широко используются в экономике, медицине, сфере телекоммуникационных услуг, маркетинге и других областях, в качестве инструмента для принятия решения. Существующие методы позволяют выявить имеющиеся в выборке взаимосвязи между входными и выходными переменными, построить модели, отражающие эти взаимосвязи, сравнить их с точки зрения точности, прибыльности и издержек и выбрать наиболее эффективную модель.

В данной дипломной работе рассмотрены методы оценки правдоподобия применительно к бинарной классификации, потому что в современном бизнесе, экономике, маркетинге, медицине, технике и других отраслях на сегодняшний день ставится большое количество задач, связанных с отнесением объекта к одному из двух классов. В медицине это может быть наличие или отсутствие заболевания, в маркетинге — наличие или отсутствие отклика респондента, в военной технике — наличие или отсутствие цели. Оценка правдоподобия бинарной классификации позволяет определить не сам класс, а вероятность того, что наблюдение относится к тому или иному классу, что также очень востребовано.

К методам оценки правдоподобия бинарной классификации относятся логистическая регрессия, простой классификатор Байеса, Lift, Gain и Roc диаграммы. К сожалению, данные методы имеют множество недостатков, не позволяющих им осуществить наиболее достоверную оценку.

Цель данной дипломной работы – разработка методов оценки правдоподобия бинарной классификации и их реализация на примере выборки «текучесть абонентской базы».

Для достижения этой цели необходимо решить следующие задачи.

  1. Выявить наиболее целесообразные методы оценки достоверности бинарной классификации с точки зрения применимости к выборке «текучесть абонентской базы».
  2. Разработать метод оценки шансов для нахождения коэффициентов логистической регрессии для дихотомической и полихотомической входной переменной.
  3. Разработать алгоритм построения ROC-кривых для логистической регрессии с полихотомической входной переменной.
  4. Реализовать разработанный метод оценки шансов для нахождения коэффициентов логистической регрессии для дихотомической и полихотомической входной переменной и разработанный алгоритм построения ROC-кривых для полихотомической входной переменной на примере выборки «текучесть абонентской базы» путем написания программы на языке Delphi.

Разработанные методы оценки правдоподобия бинарной классификации, реализованные в программном обеспечение, могут быть использованы в качестве надежного инструмента принятия решения аналитиками в различных предметных областях, включая медицину, телекоммуникационные слуги, экономику, маркетинг и д.р.

Глава 1 Применение логистической регрессии в задачах бинарной классификации

1.1 Обзор методов оценки достоверности и правдоподобия

В настоящее время для решения задач, связанных с обработкой и анализом большого количества разнородных данных, разработано огромное количество методов и алгоритмов классификации и регрессии, включая их модификации. В данном обзоре рассматриваются следующие методы оценки достоверности и правдоподобия:

  • логистическая регрессия;
  • простой классификатор Байеса;
  • Lift, Gain и Roc диаграммы.

Так же в обзоре рассматривается линейная регрессия в качестве инструмента построения математических моделей для лучшего понимания достоинств логистической регрессии.

1.1.1 Линейная регрессия

Линейная регрессия используется для моделирования линейных зависимостей между непрерывной выходной переменной и набором входных переменных. «При определенных условиях уравнение линейной регрессии служит незаменимым и очень качественным инструментом анализа и прогнозирования» [1]. Модель линейной регрессии является наиболее распространенным и простым уравнением зависимости между входными и выходными переменными. Кроме того, построенное уравнение линейной регрессии может быть начальной точкой анализа данных.

Теоретическая линейная регрессионная модель имеет вид:

,

Где:

– выходная (зависимая) переменная модели;

– входные (независимые) переменные;

– коэффициенты линейной регрессии;

– свободный член;

оценка теоретического случайного отклонение.

«Для определения значений теоретических коэффициентов линейной регрессии необходимо знать и использовать все значения переменных x и y генеральной совокупности, что практически невозможно» [1].

По выборке ограниченного объема возможно построить так называемое эмпирическое уравнение регрессии:

,

Где:

– выходная (зависимая) переменная модели;

– входные (независимые) переменные;

– коэффициенты линейной регрессии;

– свободный член;

оценка теоретического случайного отклонение.

Коэффициенты подбираются таким образом, чтобы на заданный входной вектор регрессионная модель формировала желаемое выходное значение . «Эмпирические коэффициенты регрессии и являются оценками теоретических коэффициентов и , а само уравнение отражает общую тенденцию в поведении рассматриваемых переменных. Индивидуальные значения переменных в силу различных причин могут отклоняться от модельных значений» [1].

Одним из наиболее привлекательных свойств линейной регрессии является то, что ее коэффициенты могут быть получены с помощью метода наименьших квадратов [5].

Однако, линейная регрессионная модель не универсальна. Когда для решения задачи строят модель линейной регрессии, на значения зависимой переменной обычно не налагают никаких ограничений. Но на практике такие ограничения часто встречаются и могут быть весьма существенными. Например, выходная переменная может быть категориальной или бинарной. В таких случаях используют логистическую регрессию.

1.1.2 Логистическая регрессия

При анализе данных часто встречаются задачи, где выходная переменная является категориальной, и тогда использование линейной регрессии затруднено. Поэтому при поиске связей между набором входных переменных и категориальной выход­ной переменной получила распространение логистическая регрессия. Логистическая регрессия является методом бинарной классификации. Она позволяет оценивать вероятность реализации (или не реализации) события в зависимости от значений некоторых независимых переменных. Линия логистической регрессии, в отличие от линейной, не является прямой.

Условное среднее для логической регрессии имеет вид:

,

Где:

е – основание натурального логарифма;

- вероятность того, что произойдет интересующее событие;

0, 1 – коэффициенты логистической регрессии.

х – значение независимой (входной) переменной.

Эту функцию называют логистической. Значения изменяются в диапазоне от 0 до 1. Если предположить, что значение выходной переменной , равное 1, рассма­тривается как успех, а значения 0 — как неуспех, то можно интерпретировать как вероятность успеха, а – неуспеха.

Для оценки коэффициентов логистической регрессии метод наименьших квадратов не применим. Поэтому ее коэффициенты оцениваются на основе метода максимального правдоподобия. Логарифмическая функция правдоподобия имеет вид:

.

В книге Н. Паклина и В. Орешкова «Бизнес-аналитика: от данных к знаниям» оценки максимального правдоподобия были найдены путем дифференцирования относительно каждого параметра и приравниваем результирующих выражений к 0 [5]. Коэффициенты и в полученной системе уравнений могут быть найдены только вычислительным путем. Аналитическое решение данной системы уравнений авторами найдено не было.

1.1.3 Простой классификатор Байеса (Naive Bayes)

Байесовский подход объединяет группу алгоритмов классификации, основанных на принципе условной вероятности: для объекта с помощью формулы Байеса определяется апостериорная вероятность принадлежности к каждому классу и выбирается тот класс, для которого она максимальна. «Изначально байесовская классификация использовалась для формализации знаний экспертов в экспертных системах, сейчас байесовская классификация также применяется в качестве одного из методов Data Mining» [2].

Особое место в данной области занимает простой классификатор Байеса (Naive Bayes), в основе которого лежит предположение о независимости признаков, описывающих классифицируемые объекты. Это предположение значительно упрощает задачу, поскольку вместо сложной процедуры оценки многомерной плотности вероятности требуется оценка нескольких одномерных. К сожалению, на практике предположение о независимости признаков редко выполняется, является «наивным», что и дало название методу.

К основным преимуществам наивного байесовского классификатора можно отнести легкость программной реализации и низкие вычислительные затраты. В тех редких случаях, когда признаки действительно независимы (или близки к этому), он оптимален. Главный его недостаток — относительно низкое качество классификации в большинстве реальных задач. Поэтому чаще всего его используют как примитивный эталон для сравнения различных моделей, либо как блок для построения более сложных алгоритмов [7].



Хотя предположение о статистической независимости признаков на практике выполняется достаточно редко, в Data Mining существуют различные методы, которые позволяют отбирать наименее коррелированные из них. Использование таких методов позволяет повысить эффективность байесовских классификаторов.

1.1.4 Lift-диаграммы

Наличие издержек классификации делает актуальной не только оценку эффективности модели, но и оптимизацию ее с точки зрения издержек. Для решения данной задачи может быть построено несколько моделей, после чего потребуется проверить, какая из них более эффективна. Чтобы выбрать модель, которая позволит найти оптимальное соотношение между издержками и прибылью, для каждой модели-кандидата строится график, называемый Lift-кривой (Lift curve). Семейство Lift-кривых образует Lift-диаграмму (Lift chart). Поведение Lift-кривых и их взаимное расположение на диаграмме позволяют сделать вывод о том, какая из моделей работает лучше. С помощью Lift-диаграмм также можно определить размер выборки, который даст наилучшее соотношение издержек и прибыли.

Однако, при оценке эффективности моделей с помощью Lift-диаграмм можно столкнуться со следующей проблемой: одна модель лучше работает в одном диапазоне (например, при объемах выборки 70-100%), а вторая — в другом (0-50%). Поэтому Lift-диаграммы не всегда применимы и эффективны в решении отдельных задач.

Рисунок 1. Lift-диаграмма

Lift-диаграмма изображена на рис. 1. «По горизонтальной оси Lift-диаграммы откладывается размер выборки в процентах от общего числа наблюдений в упорядоченном списке, а по вертикальной — число полученных положительных исходов. Каждая точка Lift-кривой показывает ожидаемое число положительных исходов для выборки заданного размера. Точка с координатами (0; 0) соответствует нулевому числу наблюдений и, следовательно, положительных исходов» [5]. Точка с координатами (100; 1000) соответствует максимальному числу наблюдений с исключительно положительными исходами.

Диагональная линия на Lift-диаграмме отражает работу так называемого произвольного (случайного) классификатора. Модель, которой соответствует диагональная линия, бесполезна. В то же время, любая модель, Lift-кривая которой проходит выше диагональной прямой, дает прирост числа положительных исходов относительно случайной модели и обеспечивает лифт. Классификатор, проходящей ниже диагональной прямой, дает отрицательный лифт и будет хуже «бесполезного», поэтому применение таких моделей с точки зрения оптимизации издержек бессмысленно. Следовательно, чем выше проходит Lift-кривая, тем эффективнее модель. При прочих равных условиях предпочтение следует отдать той модели, для которой Lift-кривая проходит выше других или максимально приближается к точке с координатами (0; 1000).

Для сравнения эффективности моделей, описываемых Lift-кривыми, часто используется площадь под ними (area under curve, AUC). Чем выше проходит график, тем больше площадь под кривой. Этот числовой показатель удобен, когда Lift-кривые двух моделей проходят близко друг к другу и визуально оценить разницу между ними трудно.

1.1.5 Gain-диаграммы

Еще одна разновидность Lift-диаграмм — Gain-диаграмма (Gain chart), или кумулятивная Lift-диаграмма (cumulative lift chart), изображена на рис. 2.

Методика использования Gain-диаграмм в целом похожа на методику использования обычных Lift-диаграмм, однако, в отличие от Lift-диаграмм, с помощью Gain-диаграмм ищется оптимальное соотношение между размером выборки и количеством ошибок классификатора [5].

Рисунок 2. Gain-диаграмма

По горизонтальной оси Gain-диаграммы также откладывается размер выборки, полученной из упорядоченного списка. Но по вертикальной оси фиксируется не количество (или процент) положительных наблюдений, попавших в выборку, а отношение числа истинноположительных наблюдений к числу всех наблюдений, классифицированных как положительные» [5]. Данная величина называется чувствительностью (Se). При увеличении размера выборки (смещении по диаграмме вправо), увеличивается количество ложноположительных наблюдений, соответственно, риск ошибочной классификации растет. При уменьшении выборки (смещении по диаграмме влево), понижается число ошибок. Задача заключается в подборе размера выборки таким образом, чтобы чувствительность модели была на достаточно высоком уровне. Если использовать Gain-диаграмму для сравнения моделей, то лучшей также будет та из них, Gain-кривая которой проходит выше.

Использовать Gain-кривые для сравнения моделей удобнее, чем обычные Lift-кривые, поскольку последние в большей степени применяются для оптимизации издержек ошибок классификации, а первые непосредственно указывают на точность модели. Однако, использование Gain-кривых сопряжено с тем же ограничением, что и использование Lift-диаграмм – они не универсальны и не могут быть применены для решения отдельных задач. Обе выше перечисленные диаграммы не позволяют численно измерить издержки или выгоды от использования модели.

1.1.6 ROC-анализ

ROС-анализ представляет собой графическую методику оценивания эффективности моделей с помощью двух показателей — чувствительности (Se) и специфичности (Sp).

В задачах бинарной классификации, когда модель предсказывает вероятность того, что наблюдение относится к одному из двух классов, очень важен выбор точки отсечения, то есть порога вероятности, разделяющего два класса. Такая точка отсечения показывает, после какого значения вероятности на выходе модели один класс сменяется другим. Выбирая точку отсечения, мы управляем вероятностью правильного распознавания положительных и отрицательных примеров. При уменьшении порога отсечения увеличивается вероятность ошибочного распознавания положительных наблюдений (ложноположительных исходов), а при увеличении возрастает вероятность неправильного распознавания отрицательных наблюдений (ложноотрицательных исходов).

Цель ROС-анализа заключается в том, чтобы подобрать такое значение точки отсечения, которое позволит модели с наибольшей точностью распознавать положительные или отрицательные исходы и выдавать наименьшее количество ложноположительных или ложноотрицательных ошибок, соответственно.

ROС-анализ широко используется в медицине, биологии, маркетинге, банковском деле и других областях, где применяется бинарная вероятностная классификация.

В основе ROC-анализа лежат ROC-кривые. График ROC-кривой изображен на рис. 3.

Для построения ROC-кривой требуется изменять порог отсечения в диапазоне от 0 до 1 с заданным шагом, например 0,01. Чем меньше шаг, тем больше будет точек на графике, что косвенно влияет на точность построения ROC-кривой. При каждом значении порога заново рассчитываются значения специфичности (Sp) и чувствительности (Se), т.е. меняется количество распознанных ошибок I и II рода. Чувствительность (Se) откладывается по оси ординат, а по оси абсцисс откладывается значение 100-Sp.

Рисунок 3. ROC-кривая и идеальная ROC-кривая

Еще одно полезное свойство ROC-кривой заключается в том, что она позволяет оценить качество модели бинарной классификации. Определить степень качества модели можно по кривизне кривой: чем ближе она к идеальному классификатору, тем качественнее модель. Если же кривая близка к диагонали, то модель бесполезна.

Визуально сравнить ROC-кривые и выявить более эффективную модель не всегда представляется возможным. Поэтому их можно сравнивать с помощью подсчета площади под кривой (AUC). Площадь под кривой характеризует прогностическую силу модели, при этом AUC=1 соответствует идеальному классификатору, который не достижим на практике, а AUC=0,5 соответствует бесполезному классификатору.

В результате анализа существующих методов оценки достоверности бинарной классификации было выявлено, что модель, описывающая зависимость между входными переменными и выходной бинарной переменной выборки «текучесть абонентской базы» должна быть построена с помощью логистической регрессии, а оценка качества данной модели должна быть произведена с помощью построения ROC-кривых.

1.2 Пример простой бинарной классификации с числовой входной переменной

Рассмотрим пример простой логистической регрессии с числовой входной переменной, приведенный в книге Н.Б. Паклина [5].

Пусть врача интересует зависимость между возрастом пациента и наличием или отсутствием у пациента какого-либо заболевания. Данные, касающиеся 20-ти пациентов, представлены в табл. 1. В данной таблице присутствуют следующие поля: «№ пациента», «Возраст пациента, х» и «Наличие заболевания, у».

Поле «№ пациента», содержит порядковый номер пациента.

Поле «Возраст пациента, х», содержит значения входной числовой переменной «Возраст пациента» и обозначается, как переменная «х».

Поле «Наличие заболевания, у», содержит значения выходной бинарной переменной «Наличие заболевания» и обозначается, как переменная «y». Она может принимать только два значения 0 и 1.

Таблица 1

Данные о возрасте пациентов и наличии у них некоторого заболевания

№ пациента Возраст пациента, х Наличие заболевания, у
1 25 0
2 29 0
3 30 0
4 31 0
5 32 0
6 41 0
7 41 0
8 42 0
9 44 1
10 49 1
11 50 0
12 59 1
13 60 0
14 62 0
15 68 1
16 72 0
17 79 1
18 80 0
19 81 1
20 84 1

[5]

Диаграмма, изображенная на рис. 4, наглядно демонстрирует возможности логистической регрессии по отношению к линейной регрессии.

Рисунок 4. Диаграмма соответствия линий линейной и логистической регрессии на примере выборки данных о возрасте пациентов и наличии у них некоторого заболевания [5]

Сплошной линией на диаграмме изображена прямая простой линейной регрессии, а пунктиром - кривая логистической регрессии, построенные на основе данных таблицы 1. Для обеих кривых кружками обозначены ошибки оценивания заболевания у пациентов.

По данной диаграмме видно, что линия линейной регрессии равномерно возрастает и большое количество ее значений лежит рядом с вероятностью наличия заболевания, равной 50%. Однако, вероятность в 50% и близкие к ней вероятности не дают точно отнести событие к положительному или отрицательному исходу. Применительно к данной выборке это наличие или отсутствие заболевания. В то же время, у аналитиков возникают трудности с классификацией таких событий.

Линия логистической регрессии имеет порог в районе 50% вероятности, а значит, меньшее количество событий будет иметь вероятности в диапазоне 50%. Это позволит аналитику точно идентифицировать большее количество событий, как положительный или отрицательный исход.

В результате анализа диаграммы выявлено, что логистическая регрессия является более точной моделью для оценивания вероятности наличия заболевания у пациента в зависимости от его возраста, чем линейная регрессия, и сделан вывод о том, что логистическая регрессия имеет более высокую предсказательную способность по сравнению с линейной регрессией.

1.3 Проблема ошибок 1 и 2 рода и издержек классификации

В процессе работы бинарной классификационной модели могут возникать ошибки – несоответствия выходных значений модели и реальных значений выборки. Предсказание, соответствующее положительному исходу, может быть распознано моделью как отрицательный исход. Такие ошибки называются ложноотрицательными или ошибками I рода. Предсказание, соответствующее отрицательному исходу, наоборот, может быть распознано моделью как положительный исход. Такие ошибки называются ложноположительными или ошибками II рода. Поэтому в бинарной классификации каждое предсказание может иметь следующие четыре исхода, которые приведены в табл. 2:

  • истинноположительный (true positive, TP);
  • истинноотрицательный (true negative, TN);
  • ложноположительный (false positive, FP);
  • ложноотрицательный (false negative, FN).

Таблица 2

Матрица классификации

Фактически класс Предсказанный класс
Да Нет
Да TP FN
Нет FP TN

В таблице 2 под фактическим классом понимается то, что конкретное событие по данным выборки действительно имеет положительный или отрицательный исход. В тоже время, предсказанный класс говорит о том, что событие было отнесено моделью к положительному или отрицательному исходу, что может противоречить или соответствовать реальным данным.

Точность бинарной классификационной модели можно оценить с помощью четырех показателей: общего показателя успеха, общего показателя ошибки, чувствительности и специфичности.

Общий показатель успеха (overall success rate, OSR) представляет собой число правильно классифицированных наблюдений, отнесенное к общему числу наблюдений:

.

Иногда данную величину называют точностью классификатора.

Общий показатель ошибки (overall error rate, OVR) определяется отношением числа неправильно классифицированных наблюдений к общему числу наблюдений:

.

Чувствительность (sensitivity, Se) определяется как отношение числа истинноположительных наблюдений к числу фактически положительных наблюдений:

.

Специфичность (specificity, Sp) определяется как отношение числа истинноотрицательных наблюдений к числу фактически отрицательных наблюдений:

.

В бинарной классификации два типа ошибок — ложноположительный и ложноотрицательный — будут давать различные издержки, а два типа корректной классификации — истинноположительный и истинноотрицательный — будут приносить различную прибыль.

Минимизировать издержки ошибок классификации можно с помощью выбора точки отсечения (cut-off point) — порогового значения вероятности, разделяющего классы. При увеличении порога (приближении его к 1), увеличивается вероятность ложноположительных исходов и уменьшается вероятность ложноотрицательных. При снижении порога, наоборот, уменьшается вероятность ложноположительных исходов и увеличивается вероятность ложноотрицательных. Если известно, какой из двух типов ошибок обходится дороже, то можно подобрать порог так, чтобы минимизировать связанные с ним издержки. Если событие, связанное с положительным исходом классификации, является редким, то издержки ложноотрицательных ошибок обычно больше, чем издержки ложноположительных. Для таких случаев порог отсечения должен задаваться существенно ниже, чем 0,5.

1.4 Метод оценки шансов для нахождения коэффициентов логистической регрессии

Модель логистической регрессии учитывает отношение шансов, поэтому для нахождения коэффициентов логистической регрессии может применяться метод оценки шансов.

«Шанс определяется как вероятность того, что событие произошло (шанс успеха), разделенная на вероятность того, что событие не произошло (шанс неуспеха). Шансы и вероятности содержат одну и ту же информацию, но по-разному выражают ее. Если вероятность того, что событие произойдет, обозначить как, то шанс возникновения этого события будет равен /(1- )» [5].

В бинарной логистической регрессии с дихотомической входной переменной вероятность того, что выходная переменная примет значение у=1 (событие произошло) при х=1, может быть записана в виде:

,

Где:

е – основание натурального логарифма;

0, 1 – коэффициенты логистической регрессии.

х – значение независимой (входной) переменной.

Аналогично вероятность того, что выходная переменная примет значение у=1 (событие произошло) для наблюдений, в которых х=0, может быть записана как:

.

Отношение шанса того, что выходная переменная примет значение 1 (событие произошло), к шансу того, что переменная примет значение 0 (событие не произошло) имеет вид:

.

Благодаря последней формуле становится возможным расчет коэффициентов логистической регрессии для дихотомической и полихотомической входной переменной. Расчет коэффициентов логистической регрессии методом оценки шансов для дихотомической и полихотомической переменной приведен в третьей главе дипломной работы.


Глава 2 Постановка задач исследования

В результате анализа существующих методов оценки достоверности бинарной классификации было выявлено, что модель, описывающая зависимость между входными и выходными переменными выборки «текучесть абонентской базы», должна быть построена с помощью логистической регрессии, а оценка качества данной модели должна быть произведена с помощью построения ROC-кривых.

Для реализации этой цели необходимо выполнить следующие задачи.

1) Разработать метод оценки шансов для нахождения коэффициентов логистической регрессии для дихотомической и полихотомической входной переменной.

3) Разработать алгоритм построения ROC-кривых для логистической регрессии с полихотомической входной переменной.

4) Реализовать разработанный метод оценки шансов для нахождения коэффициентов логистической регрессии для дихотомической и полихотомической входной переменной и разработанный алгоритм построения ROC-кривых для полихотомической входной переменной на примере выборки «текучесть абонентской базы» путем написания программы на языке Delphi.

  • Рассчитать коэффициенты логистической регрессии для дихотомической входной переменной с помощью метода оценки шансов.
  • Рассчитать отношения шансов для данной переменной.
  • Рассчитать вероятности положительного исхода выходной переменной в зависимости от значений входной переменной.
  • Рассчитать коэффициенты логистической регрессии для полихотомической входной переменной с помощью метода оценки шансов.
  • Разбить входную переменную на категории «низкое», «среднее», «высокое».
  • Рассчитать отношения шансов для категорий «среднее» и «высокое» по отношению к категории «низкое».
  • Рассчитать вероятности положительного исхода выходной переменной для категорий «низкое», «среднее», «высокое» входной переменной.
  • Построить ROC-кривые для категорий «низкое», «среднее», «высокое» входной полихотомической переменной.
  • Рассчитать площади под кривыми (AUC) для каждой категории входной переменной.

В качестве исходных данных для реализации программы была выбрана выборка «текучесть абонентской базы» из-за репрезентативности данной выборки, наличия в ней ряда входных полихотомических и дихотомических переменных, независимых между собой, и выходной бинарной переменной «Уход» клиента, которая зависима от входных переменных.

Глава 3 Теория и практика логистической регрессии в задачах бинарной классификации

3.1 Понятие логистической регрессии и сфера ее применения

В анализе данных часто встречаются задачи, где выходная переменная является категориальной, и использование линейной регрессии затруднено. Поэтому в поиске связей между набором входных переменных и категориальной выход­ной переменной, получила распространение логистическая регрессия.

«Логистическая регрессия или логит-регрессия - разновидность множественной регрессии, назначение которой состоит в анализе связи между несколькими независимыми (входными) переменными и зависимой (выходной) переменной» [6].

Логистическая регрессия применяется в случаях, когда зависимая (выходная) переменная является бинарной, то есть может принимать только два значения: 1 или 0 [9]. При этом объясняющие (входные) переменные должны быть независимы друг от друга.

Логит-регрессия является методом бинарной классификации. Она позволяет оценивать вероятность реализации (или не реализации) события в зависимости от значений некоторых независимых переменных.

Модель логистической регрессии используется в медицине при проведении клинических исследований, в банковском деле при построении рейтинга заемщика и управлении кредитными рисками, в маркетинге для моделирования поведения клиента и т. д. [7].

3.1.1 Уравнение логистической регрессии

Все регрессионные модели могут быть записаны в виде функции

. Например, в множественной линейной регрессии зависимая (выходная) переменная является линейной функцией независимых (входных) переменных:

.

Для построения модели логистической регрессии, уравнение регрессии преобразуют таким образом, чтобы значения переменной y никогда не выходили за интервал [0,1]. Такое преобразование называется логит-преобразованием [8].

В результате логит-преобразования уравнение логистической регрессии с одной входной переменной принимает вид:

,

Где:

е – основание натурального логарифма;

- вероятность того, что произойдет интересующее событие;

0, 1 – коэффициенты логистической регрессии.

х – значение независимой (входной) переменной.

Уравнение логистической регрессии с несколькими входными переменными имеет вид:

,

Где:

– переменная logit;

х – значения независимых входных переменных.

3.1.2 График функции логистической регрессии

График функции логистической регрессии изображен на рис. 5.

Рисунок 5. График функции логистической регрессии

По оси абсцисс отложена переменная logit (), по оси ординат - .

Особенностью логистической функции является то, что она может принимать любые входные значения от минус бесконечности до плюс бесконечности, тогда как выходная переменная ограничена диапазоном [0; 1].

3.2 Метод максимального правдоподобия для нахождения коэффициентов логистической регрессии

«Метод максимального правдоподобия очень часто используется в статистике для получения оценок параметров генеральной совокупности по данным выборки. Он основан на функции правдоподобия» [5]. Функция правдоподобия определяет вероятность появления значений параметров =1,2,3,...,n для данного значения х. Задача метода максимального правдоподобия заключается в поиске таких значений этих параметров, которые максимизируют функцию правдоподобия. То есть метод максимального правдоподобия строит оценки параметров =1,2,3,...,n, наилучшим образом описывающие данные выборки.

Рассмотрим функцию максимального правдоподобия. Для этого введем следующие условные обозначения.

Пусть вероятность того, что выходная переменная y приобретет значение 1 для заданного значения x (вероятность успеха), будет (x) = P(y=1|x), а вероятность того, что y=0 при заданном x, будет 1-(x) = P(y=0|x).

Тогда, при yi=0 или 1, вклад i-го наблюдения может быть выражен как

.

Предположение, что наблюдения выборки являются независимыми, позволяет представить функцию правдоподобия как произведение двух отдельных членов:

.

В вычислительном плане более удобна логарифмическая функция правдоподобия

,

Где:

;

.

Согласно утверждению Н.Б. Паклина, оценки максимального правдоподобия могут быть найдены путем дифференцирования относительно каждого параметра и приравнивания полученных выражений к 0 [5].

Проверим это утверждение и составим систему уравнений для нахождения коэффициентов и логистической регрессии по данным выборки «Данные о возрасте пациентов и наличии у них некоторого заболевания» из книги Н.Б. Паклина, рассмотренной ранее в первой главе данной дипломной работы [5].

Продифференцируем по и приравняем полученное выражение к нулю:

.

Возьмем производную левого слагаемого выражения:

,

.

Теперь продифференцируем правое слагаемое выражения:

,

,

.

С учетом двух продифференцированных слагаемых производная по исходного выражения примет вид:

.

Отбросив знаменатель, который не влияет на правую часть уравнения, получим первое уравнение системы:

.

Теперь продифференцируем по и приравняем полученное выражение к нулю:

.

Дифференцирование по происходит по схеме, аналогичной дифференцированию по , с той разницей, что:

.

Для первого слагаемого после дифференцирования по получим следующее выражение:

.

Для второго слагаемого после дифференцирования по получим следующее выражение:

.

С учетом двух продифференцированных слагаемых производная по исходного выражения примет вид:

.

Отбросив общий знаменатель, получим второе уравнение системы:

.

Итак, система уравнений для нахождения коэффициентов логистической регрессии и , приведена ниже:

.

Проверим правильность полученной системы уравнений, используя данные, приведенные в книге Н.Б. Паклина и в таблице 1 первой главы данной дипломной работы [5].

В табл. 1 присутствуют следующие поля: «№ пациента», «Возраст пациента, х» и «Наличие заболевания, у». Поле «Возраст пациента, х», содержит значения входной числовой переменной «Возраст пациента» и обозначается, как переменная «х». Поле «Наличие заболевания, у», содержит значения выходной бинарной переменной «Наличие заболевания» и обозначается, как переменная «y». Она может принимать только два значения 0 и 1.

Запишем первое уравнение из приведенной выше системы уравнений в следующем виде:

.

В левой части уравнения суммируются , которые равны единице. В правой части суммируются , которые равны нулю. В правую часть уравнения подставляются из таблицы 1 , которым соответствуют , равные нулю. Соответственно, в левой части, наоборот, суммируются такие , которых равны единице.

Подставив посчитанные в книге Н.Б. Паклина значения коэффициентов и для данной выборки, получим тождество, что свидетельствует о правильности выполненных преобразований [5].

Аналогичная проверка второго уравнения так же дает тождество, что говорит о правильности второго уравнения системы.

Из полученной системы уравнений нельзя выразить и аналитическим путем, решение системы может быть получено только итерационным численным методом.

Поэтому автор дипломной работы считает, что метод оценки максимального правдоподобия не позволяет найти коэффициенты уравнения регрессии аналитическим путем, и не подходит для реализации целей, поставленных в дипломной работе.

3.3 Разработка метода расчета параметров логистической регрессии на основе оценки шансов

Все расчеты, представленные в данной дипломной работе, выполнены по выборке «текучесть абонентской базы», взятой из CD приложения к учебному пособию Паклина Н.Б. [5] Фрагмент данной выборки приведен в табл. 3.

Таблица 3

Фрагмент выборки «текучесть абонентской базы»

Штат Длина счета Код № телефона Международные звонки Голосовая почта Количество голосовых сообщений Использовано дневных минут Количество звонков днем Абонентская плата 1 Использовано вечерних минут Количество звонков вечером Абонентская плата 2 Использование ночных минут Количество ночных звонков Абонентская плата 3 Минут международных разговоров Число международных звонков Абонентская плата 4 Число обращений в сервисную службу Уход
KS 128 415 382-4657 нет да 25 265,10 110 45,07 197,40 99 16,78 244,70 91 11,01 10,00 3 2,70 1 Нет
OH 107 415 371-7191 нет да 26 161,60 123 27,47 195,50 103 16,62 254,40 103 11,45 13,70 3 3,70 1 Нет
NJ 137 415 358-1921 нет нет 0 243,40 114 41,38 121,20 110 10,30 162,60 104 7,32 12,20 5 3,29 0 Нет
OH 84 408 375-9999 да нет 0 299,40 71 50,90 61,90 88 5,26 196,90 89 8,86 6,60 7 1,78 2 Нет
OK 75 415 330-6626 да нет 0 166,70 113 28,34 148,30 122 12,61 186,90 121 8,41 10,10 3 2,73 3 Нет
AL 118 510 391-8027 да нет 0 223,40 98 37,98 220,60 101 18,75 203,90 118 9,18 6,30 6 1,70 0 Нет

Рассмотрим поля представленной в таблице выборки:

  • поле «Штат» выборки содержит название штата в котором проживает абонент;
  • поле «Длина счета» показывает число номерных знаков в счете абонента;
  • поле «Код» указывает на используемый префикс телефонного номера абонента;
  • поле «№ телефона» содержит номер телефона абонента без префикса;
  • поле «Международные звонки» показывает, пользовался ли абонент данной услугой;
  • поле «Голосовая почта» говорит о том, что пользователь голосовой почты использовал или не использовал данную функцию;
  • поле «Количество голосовых сообщений» показывает, какое количество голосовых сообщений было у данного пользователя;
  • поле «Использовано дневных минут» указывает на то, сколько минут использовал абонент в дневное время.
  • поле «Количество звонков днем» показывает, сколько звонков совершил абонент днем.
  • поле «Абонентская плата 1» содержит информацию о том, сколько абонент должен заплатить за потраченные дневные минуты.
  • поле «Использовано вечерних минут» указывает на то, сколько минут использовал абонент в вечернее время.
  • поле «Количество звонков вечером» показывает, сколько звонков совершил абонент вечером.
  • поле «Абонентская плата 2» содержит информацию о том, сколько абонент должен заплатить за потраченные вечерние минуты.
  • поле «Использовано ночных минут» указывает на то, сколько минут использовал абонент в ночное время.
  • поле «Количество ночных звонков» показывает, сколько звонков совершил абонент ночью.
  • поле «Абонентская плата 3» содержит информацию о том, сколько абонент должен заплатить за потраченные ночные минуты.
  • поле «Минут международных разговоров» указывает на то, сколько минут использовал абонент на международные разговоры.
  • поле «Число международных звонков» показывает, сколько абонент совершил международных звонков.
  • поле «Абонентская плата 4» содержит информацию о том, сколько абонент должен заплатить за потраченные на международные звонки минуты.
  • поле «Число обращений в сервисную службу» содержит информацию о том, сколько абонент раз обращался в сервисную службу для устранения каких-либо неисправностей.
  • поле «Уход» содержит информацию, о том, прекратил ли абонент пользоваться всеми видами услуг.

Поля «Штат», «Длина счета», «Код», «№ телефона», «Международные звонки», «Голосовая почта», «Количество голосовых сообщений», «Использовано дневных минут», «Количество звонков днем», «Абонентская плата 1», «Использовано вечерних минут», «Количество звонков вечером», «Абонентская плата 2», «Использовано ночных минут», «Количество ночных звонков», «Абонентская плата 3», «Минут международных разговоров», «Число международных звонков», «Абонентская плата 4», «Число обращений в сервисную службу» являются объясняющими (входными) переменными. Поле «Уход» клиента является бинарной зависимой (выходной) переменной. Поля «Голосовая почта» и «Международные звонки» - дихотомические входные переменные. Поля «Количество голосовых сообщений», «Количество звонков днем», «Количество звонков вечером», «Количество ночных звонков», «Число международных звонков», «Число обращений в сервисную службу» – полихотомические входные переменные.


3.3.1 Разработка метода расчета параметров логистической регрессии на основе оценки шансов для дихотомической входной переменной

Автор дипломной работы анализирует влияние дихотомической входной переменной «x» «Голосовая почта» на дихотомическую выходную переменную «y» «Уход» клиента. Положительным исходом будет считаться уход клиента (y = 1). Отрицательным исходом будет случай, когда клиент продолжил пользоваться услугами компании (y = 0). Так как обе переменные дихотомические, можно подсчитать шанс ухода клиента, использующего и не использующего голосовую почту, по данным таблицы 4.

Следует найти коэффициенты логистической регрессии методом оценки шансов для дихотомической входной переменной «Голосовая почта» и определить вероятность отказа клиента от услуг компании в зависимости от того, пользовался ли он голосовой почтой.

Таблица 4

Сводная таблица ухода клиентов в зависимости от пользования голосовой почтой

Голосовая почта = нет, x=0 Голосовая почта = да, x=1 Всего
С=нет, y=0 2008 842 2850
С=да, y=1 403 80 483
Всего 2411 922 3333


Pages:     || 2 |
 



<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.