Заработная плата в данном случае является линейной функцией от стажа работы (рис. 1). Причем и для мужчин, и для женщин заработная плата меняется с одним и тем же коэффициентом пропорциональности β1. Проверив с помощью t-статистики статистические значимости коэффициентов β0 и (β0 +γ), можно определить, имеет ли место в фирме дискриминация по половому признаку. Если эти коэффициенты окажутся статистически значимыми, то, очевидно, дискриминация есть. Более того, при γ > 0 – она будет в пользу мужчин, при γ < 0 – в пользу женщин.
Рисунок 1 – Пример линейной функции
В данном случае пол сотрудников имеет два альтернативных значения, и в модели это отражается одной фиктивной переменной. Возникает вопрос, нельзя ли с помощью большего числа фиктивных переменных обрисовать более сложные комбинации? Например, пусть
Y = в0 + в1X+ г1D1 + г2 D2 + е ,
Но в этой ситуации между переменными D1 и D2 существует строгая линейная зависимость: D2 = 1− D1. Мы попадаем в ситуацию совершенной мультиколлинеарности, при которой коэффициенты b1 и b2 однозначно определены быть не могут. Простейшим способом преодоления данной проблемы является отбрасывание одной из фиктивных переменных и использование для рассматриваемой задачи модели. Применяя аналогичные выкладки, можно получить следующее общее правило:
Если качественная переменная имеет k альтернативных значений, то при моделировании используются только (k – 1) фиктивных переменных.
Если не следовать данному правилу, то при моделировании исследователь попадает в ситуацию совершенной мультиколлинеарности или так называемую ловушку фиктивной переменной.
Значения фиктивной переменной можно изменять на противоположные. Суть модели от этого не изменится. Например, в модели можно положить, что: