« ОБЩАЯ ПСИХОДИАГНОСТИКА РЕЧЬ Санкт-Петербург 2000 Общая психодиагностика. - СПб.: Изд-во «Речь», 2000. -440 стр. ...»
«До» +
Здесь в клеточке А указана частота сохранения ответа «верно» на некоторый /-и вопрос (из 76 ответивших «верно» таких оказалось только 40 испытуемых), в клеточке В - частота изменения ответа «верно» на ответ «неверно» и т. д. Как видим, смена инструкции привела к значительным изменениям. Но для оценки значимого направления этих изменений автор критерия Макнимар предложил сравнивать между собой по критерию «хи-квадрат» только элементы В и С этой матрицы:
(3.3.3)
где - вычисленное эмпирическое значение статистики хи-квадрат
с одной степенью свободы. Для нашего примера =2,91, что ниже, чем граничное значение =3,84, и, следовательно, нулевая гипотеза об отсутствии значимых направленных изменений не может быть отвергнута - пункт не является значимо нагруженным артефактным фактором социальной желательности и может быть включен в диагностический вариант теста-опросника без изменений.
По результатам такого исследования удобно составить табличку К2: в первом столбце -показатели корреляции пунктов со шкалой лжи, во втором - показатели значимости изменений при переходе к фальсификации. Безусловно достоверными можно считать только те пункты, которые не получили значимых :коэффициентов ни в первом, ни во втором столбце. Если таких пунктов оказывается слишком мало для составления надежной шкалы и если среди недостоверных пунктов достаточно много таких, которые обладают существенной внутренней (корреляция с суммарным баллом по основной шкале) или внешней (корреляция с критерием) валидностью, то следует прибегнуть к тактике балансирования: ввести в основную шкалу одинаковое количество «прямых» и «обратных» пунктов по шкале социальной желательности так, чтобы все четыре квадранта на рис. 13 были заполнены пунктами равномерно (среди «прямых» по основной шкале было бы поровну «прямых» и «обратных» по желательности, и среди «обратных» по основной - также поровну).
Без указанных предосторожностей тест-опросник неизбежно будет давать систематическое искажение результатов (в сторону повышения или понижения баллов по основной шкале) всякий раз, когда испытуемый будет квалифицировать диагностическую ситуацию как ситуацию экспертизы.
Указанные проблемы и приемы обеспечения достоверности относятся не только к тест-опросникам, но и к другим техникам стандартизованного самоотчета, подверженным мотивационным искажениям. Существует теоретическая возможность преодолеть все эти проблемы. Но на практике это оборачивается огромной эмпирико-методической работой.
Другой путь - управление процессами категоризации в ходе самой диагностики. В так называемой «репертуарной модификации» тест-опросника испытуемому специально предлагают выполнять тест не только от своего имени, но и от имени определенного репертуара ролей: «большинство людей», «моральный человек», «преуспевающий человек» и т. п. (Шмелев А. Г. и др., 1984). Извлечение практических выгод из подобной модификации обусловлено возможностью компьютерной обработки результатов либо сразу же после тестирования, либо даже в ходе самого тестирования (см. раздел 3.6).
Порядок действий психолога при проверке валидности. Очень трудно выделить универсальный алгоритм работы психолога по проверке валидности, ибо существуют различные подходы к обеспечению валидности, обусловленные теоретико-методологическими различиями определенных психологических школ. Для прагматически ориентированных тестологов (каковыми традиционно являлись до недавнего времени почти все англо-американские специалисты) главный момент - поиск операционально строго заданного социально-прагматического критерия валидности, по отношению к которому диагностические тесты и их составные части (пункты) подбираются как бы автоматически -в ходе эмпирико-статистических процедур сбора и корреляционного анализа результатов. Но, конечно, неверно было бы приписывать этому подходу «бездумность в опоре на статистику»: ведь статистика только тогда позволяет выявить валидное подмножество пунктов, когда исходное множество подобрано не случайно - с использованием априорных корректных содержательно-психологических представлений.
Современные методологи психологического тестирования фактически единодушно приходят к признанию (как наиболее оптимальной) рационально-эмпирической стратегии конструирования теста и проверки валидности. Перечислим этапы этой стратегии.
1. Теоретический анализ диагностического конструкта, разработка теоретической концепции тестируемого психического свойства. Выявление (с использованием литературы) системы взаимосвязанных диагностических конструктов, внутри которой новый диагностический конструкт характеризуется определенными структурно-функциональными связями и отношениями. Прогнозирование результатов корреляционных экспериментов по проверке конструктной валидности.
2. Выделение составных частей теоретического конструкта, формулирование системы «эмпирических индикаторов» - операционально однозначных показателей, фиксирующих проявление конструкта в различных поведенческих ситуациях. Конструирование пунктов теста.
3. Формулирование релевантного социально-прагматического критерия для проверки валидности.
4. Планирование и проведение корреляционного исследования (или квазиэксперимента) на специально подобранной выборке испытуемых, для которых известно значение критериального показателя, а также результаты по родственным психологическим тестам. При необходимости на этих испытуемых проводятся дополнительные тесты с целью получить возможность корреляционной проверки конструктной валидности теста (экспертные оценки в данном случае рассматриваются в статусе одной из возможных параллельных процедур получения критериальной или психологической информации). Оценка валидности эмпирических индикаторов.
5. Исследование достоверности результатов (если используется самоотчет и диагностическая ситуация может быть воспринята испытуемыми с настороженностью). Оценка достоверности эмпирических индикаторов.
6. Отсев пунктов, не удовлетворяющих критериям валидности и достоверности. Измерение надежности для сокращенной шкалы, состоящей только из валидных пунктов. Если надежность оказывается невысокой, то психолог снова возвращается к этапу 1 - уточняет теоретические представления.
3.4. ТЕХНОЛОГИЯ СОЗДАНИЯ И АДАПТАЦИИ МЕТОДИК
Рассматривая в предыдущем разделе вопрос о порядке проверки валидности, мы вплотную подошли к вопросу о целостной стратегии создания, эмпирической апробации и внедрения методики в практику.
Создание оригинальной методики или адаптация зарубежной методики не могут сводиться только к проверке (или перепроверке) отдельных психометрических свойств - репрезентативности, надежности, валидности, достоверности - в произвольной последовательности. В одних случаях целесообразно начинать с одного этапа работы, в других - с другого.
В действительности любая реальная ситуация использования теста не является ситуацией только «конструирования» или только «применения». Можно без преувеличения сказать, что существует континуум между крайними полюсами:
«конструирование» __________________ «применение»
и каждая ситуация до определенной ступени удалена от обоих полюсов. Трудно назвать такой случай, когда бы конструирование совершенно нового теста начиналось с нуля, «на пустом месте». Также трудно найти и такие случаи, когда все аспекты тестирования были бы полностью неизменными и воспроизводили бы уже совершенно исследованную нормативную ситуацию применения готового теста.
Но все это многообразие ситуаций, всю комбинаторику независимых параметров психологи-практики, как правило, пытаются свести к двум-трем типовым ситуациям.
1. Ситуация применения. Тест кем-то разработан (возможно, В: других социокультурных условиях), известны тестовые нормы, полученные на представителях данной языковой культуры (несоответствие выборки стандартизации и выборки применения по половозрастной структуре и профессионально-культурным признакам признается несущественным).
2. Ситуация адаптации. Тест кем-то разработан – проверены надежность и валидность, но отсутствуют тестовые нормы (как правило, отсутствуют вообще для любых представителей данной языковой культуры). Задача адаптации сводится, таким образом, к построению тестовых норм.
3. Ситуация конструирования. Есть концепция психического свойства, но нет процедуры его измерения, удовлетворяющей требованиям места, времени, возможностям количественного анализа и ограничениям прочих ресурсов. Надо придумать измерительную процедуру, проверить ее надежности валидность, построить тестовые нормы.
Остановимся прежде всего на вопросах адаптации так называемых переводных тестов. Путь быстрого пополнения репертуара методик за счет множества готовых зарубежных методик кажется многим психологам наиболее экономичным, кратчайшим путем к надежной и валидной психодиагностике. Но ведь если при этом адаптация сводится только к построению нормативного распределения тестовых баллов, то это означает, что валидность и надежность адаптированной методики в новых условиях принимаются на веру, а теоретическая концепция автора теста и содержание использованных им критериев валидности просто переносятся в наши условия без изменений (ведь для любой, в том числе и для невалидной и ненадежной методики, можно получить распределение).
Подобный перенос дает пренебрежимые погрешности только для тестирования относительно элементарных психических свойств (таких, как свойства нервной системы, функциональные состояния, сенсомоторные параметры, элементарные когнитивные функции, причем с использованием объективных процедур (психофизиологическая регистрация, тесты с «физическими» критериями успеха и т. п.). При тестировании интегральных психических свойств личности и индивидуального сознания (черты, мотивы, установки, самооценка, общие способности, стиль общения, ценностные ориентации, интересы и т. п.), а также при употреблении любых лингвистических средств в самой процедуре тестирования (включая не только формулировки задач, вопросов; но и исходную формулировку инструкции к тесту) и использовании культурно-специфических критериев оценки правильности.результата (определения шкального ключа) ограничиваться только сбором тестовых норм при адаптации - недопустимо!
Требуется серьезная эмпирическая работа по проверке надежности и валидности в новых социокультурных условиях, работа, фактически соответствующая по своему объему созданию оригинальной методики. С этой точки зрения, заимствование зарубежных общедиагностических тестов способностей, черт характера, интересов и т. п. вовсе не оказывается кратчайшим путем к психодиагностике. Этот путь кажется короче только тем, кто сознательно или по неведению пренебрегает принципами психометрики.
Перечислим необходимые этапы эмпирико-статиетической работы при адаптации многомерного переводного тест-опросника.
1. Анализ внутренней валидности, внутренней согласованности пунктов, из которых состоит тест-опросник. Этот анализ совершенно необходим, если в зарубежной методике он применялся в качестве средства самого конструирования методики. Этот-анализ призван показать, что существует некое (еще неясно, какое именно) общее диагностическое свойство, лежащее на пересечении всех эмпирических индикаторов (в центре «пучка» скоррелированных пунктов-векторов). Такой анализ обязателен по отношению ко всем тестовым шкалам, полученным с помощью факторного анализа, например к тест-опросникам EPI Айзенка и 16PF Кеттелла. А вот к опроснику «локус контроля» или ко многим основным клиническим шкалам MMPI требование внутренней согласованности применять не обязательно, так как пункты в эти шкалы подбирались по внешнему критерию и не связаны в один «пучок». Анализ внутренней согласованности может быть применен и к одномерным, и к многомерным тестам. В первом случае достаточно иметь настольный калькулятор. Для многомерных тестов необходимо использование специальной компьютерной программы «Анализ пунктов».
По отношению к негомогенным шкалам анализ внутренней согласованности позволяет осуществить в снятом виде необходимую проверку информативности пунктов (процент правильных или подтверждающих ответов должен соответствовать оригинальной авторской версии).
2. Проверка устойчивости к перетестированию. Эта проверка совершенно необходима при диагностике свойств, по отношению к которым теоретически ожидается инвариантность во времени. Анализ ретестовой надежности может быть (так же как анализ надежности -согласованности) совмещен с исследованием информативности отдельных пунктов теста, а также, возможно, и устойчивости отдельных пунктов. Без сведений о ретестовой надежности психолог не имеет права использовать тест для построения любого элементарного статического экстраполирующего прогноза (см. раздел 3.5).
3. Анализ корреляций с релевантным внешним критерием. Этот этап адаптации совершенно необходим, если тест разрабатывался изначально как критериально-ориентированный, т. е. отбор пунктов производился на основании их корреляций с каким-то критерием валидности. Например, подобная работа проделана коллективом Ф. Б. Березина для сокращенной модифицированной версии MMPI (Березин Ф. Б. и др., 1976).
4. Проверка или ре стандартизация тестовых норм. Об этом этапе уже говорилось выше. К сожалению, только этот этап работы по адаптации тестов до недавнего ывремени признавался всеми психологами как необходимый. Но и в этом случае далеко не всегда воспроизводилась необходимая статистическая работа по проверке устойчивости полученного распределения тестовых баллов к расщеплению выборки (см. раздел 3.1).
5. Специфичный этап для многомерных тестов - проверка воспроизводимости структуры отношений между шкалами. Например, для теста Айзенка принципиальна ортогональность, статистическая независимость факторов «экстраверсия - интроверсия» и «нейротизм - стабильность». На воспроизводимости структуры связей шкал между факторами 16PF основывается корректность подсчета вторичных факторов (Ямпольский Л. Г., 1981; Мельников В. М., Ямпольский Л. Г., 1985).
Даже беглый взгляд на пять перечисленных этапов позволяет убедиться в том, что адаптация зарубежных тестов мало чем уступает по объему эмпирико-статистической работы созданию оригинальных методик. Здесь было бы даже более адекватным использование не термина «адаптация», а выражения «исследование зарубежной методики на отечественной выборке».
Тем не менее не следует понимать сказанное как призыв к полному отказу от работы с зарубежными методиками. Нет, конечно же, такая работа должна проводится интенсивно и планомерно. Особенно по отношению к тем методикам, которые уже получили международное распространение, доказали свою кросскультурную универсальность, адаптированы и успешно применяются во многих странах. Создание отечественных эквивалентов международных тестов позволяет использовать международный опыт валидизации, теоретического осмысления и практического использования этих тестов. Сравнение результатов, структурно-функциональных характеристик адаптированных зарубежных и отечественных тестов позволит российским психологам глубже понять, установить на конкретно-эмпирическом уровне специфику влияния образа жизни на психологический склад личности россиян, раскрыть разнообразие исторических и актуальных детерминант, обусловливающих социально полезные и социально вредные тенденции в психологической дифференциации индивидов в современных условиях, что совершенно необходимо для научного управления процессами воспитания и формирования человека.
Особые задачи ставит перед психологом ситуация «внутрикуль-турного переноса» теста на новую популяцию, отличающуюся от выборки стандартизации половозрастными или профессионально-культурными особенностями. В этом случае необходимо:
1. Проверить валидность методики в тмо случае, если методика чувствительна по своему содержанию к профессиональной или региональной специфике (могут ли отвечать пенсионеры, или школьники, или жители отдаленных регионов на вопросы, подразумевающие типичные ситуации из жизни студента, обучающегося в крупном городе европейской части России?). Для этого надо выбрать по возможности максимально экономичную процедуру проверки валидности. Размеры выборки в эксперименте по проверке валидности должны быть такими, чтобы можно было надеяться на получение статистических значимых связей между тестовым показателем и критерием валидности (это, как правило, не менее 30 испытуемых).
Если результаты проверки валидности оказываются неудовлетворительными (коэффициент корреляции явно ниже 0,5, и дальнейшее наращивание выборки все равно не оправдает применение.теста со столь низким показателем валидности), то по собранным результатам следует произвести простейший анализ пунктов: посмотреть, не оказались ли некоторые пункты явно неинформативными (все испытуемые отвечают одинаково), не оказались ли некоторые вопросы явно бессмысленными или слишком «прямыми», социально значимыми в данной ситуации. Не исключено, что при исключении неудачных пунктов из подсчета тестового балла (после приравнивания С=0).,искомая валидность будет обнаружена.
В отсутствие доступного внешнего критерия необходимо прибегнуть к проверке внутренней валидности, консистентности методики.
2. Проверить соответствия тестовых норм. Только после получения позитивного результата при проверке валидности целесообразно расширять выборку и реконструировать эмпирическое распределение тестовых баллов (см. раздел 3.1). Квантили этого распределения необходимо сравнить с квантилями нормативного распределения; если расхождения оказываются пренебрежимыми (не превышают ошибку измерения), то, можно принять вывод о приложимости к данной популяции универсальных тестовых норм. Но на к практике чаще возникают значимые отличия (оценка близости двух распределений производится по формуле (3.1.15) на с. 9.6). В этом случае психолог должен построить так называемые частные тестовые нормы, причем не только для использования в собственной диагностической практике, но и для пополнения информационно-методического банка данных отечественной психодиагностики (копию таблицы распределения тестовых баллов психолог должен послать в тот диагностический методический центр, с которым он поддерживает методические связи - получает методические материалы, проходит переподготовку и т. п.).
Подчеркнем, что абсолютное большинство ситуаций, которые обычно расцениваются как ситуации «применения», на самом деле являются ситуациями более или менее серьезного «внутрикультурного переноса». Именно эти обстоятельства предопределяют высокий уровень требований к психометрической подготовке психологов-психодиагностов (см. раздел 3.6).
При создании методики, как это уже было сказано в предыдущем разделе, решающее значение имеют методологическая ориентация и статус психолога.
Под статусом в данном случае понимаются существенные различия в нормативных (закрепленных в должностных инструкциях) требованиях к продукту деятельности психолога, работающего в исследовательском учреждении, и психолога, работающего в практическом учреждении. Если в первом случае психолог имеет право считать своим «конечным продуктом» внутрипсихологическую валидизацию сконструированной методики, то во втором случае он, как правило, обязан обеспечить практическую эффективность своей психодиагностической программы - указать на статистически значимую связь результатов диагностики с величиной какого-то социально ценного показателя - критерия, а затем построить на основе этой связи психологическую концепцию «вмешательства» (административного или психологического воздействия на ситуацию с целью ее изменения в желаемом направлении – в сторону максимизации данного показателя).
Указанные изначальные различия в статусах психолога-исследователя и психолога-практика предопределяют оправданные различия в стратегии конструирования тестов и тестовых батарей. Для психолога-исследователя главная ценность - это теоретическая обоснованность и эмпирическая однозначность диагностического конструкта, которой он достигает с помощью оправданной ориентации на конструктную валидизацию. У исследователя хватает ресурсов для того, чтобы обеспечить множественность разнообразных по своему статусу критериев валидности - от субъективных оценок валидности включенных наблюдателей (L-данные по Кеттеллу) до экспериментального моделирования реальных ситуаций проявления измеряемого свойства (Г-данные по Кеттеллу, см. также: Мельников В. М., Ямпольский Л. Г., 1985). Для психолога-практика главная ценность - это эффективность, пусть даже она будет достигнута с помощью теоретически эклектичного инструмента - эмпирического средства, не имеющего соответствующего научно строгого конструкта.
Появление и размножение прагматических тестов, очевидно, обусловлено действием объективного социально-исторического механизма, который можно было бы кратко назвать «опережающим запросом практики». Этого феномена не было бы, если бы все запросы практики можно было заранее предвидеть и рационально спланировать, подготавливая релевантные научно обоснованные диагностические процедуры. Но такое предвидение всегда удается осуществить лишь в определенной мере - реальная практика тем и отличается от дедуктивного движения в плоскости абстракций, что всегда приводит к столкновению с новыми и неожиданными явлениями, что обусловливает и появление неожиданных запросов.
Большинство ценных прагматических тестов с исторической неизбежностью становятся предметом для изучения со стороны психологов-исследователей, апостериорно реконструирующих научную концепцию валидности этих тестов, что значительно улучшает их характеристики и адекватизирует сферу применения.
Психодиагностика как специфический институт, реализованный в форме управляющего кольца «наука - практика - наука - практика...», достигнет оптимальных режимов в своем функционировании, если любые попытки конструирования и применения любых тестов будут тщательно документироваться, будут доступны для повторения в любом звене (исследовательском или практическом) психологической службы. При обеспечении эффективной информационной базы, оперативных форм информационной связи между звеньями этой системы (как методологическими, так и практическими) всякое практическое применение тестов станет одновременно и работой по созданию новых методик.
3.5. ПРОГНОЗИРОВАНИЕ И РАСПОЗНАВАНИЕ ОБРАЗОВ
Кардинальное значение для психодиагностики имеет проблема прогнозирования. Существует точка зрения, разделяющая психодиагностику и так называемую психопрогностику (Забродин Ю. М., 1984). Это указывает на самостоятельное значение проблемы прогнозирования.
В действительности, любая психодиагностика служит прогнозированию - на больших или меньших отрезках времени. То, что называется диагностикой текущего состояния объекта, имеет следующий смысл. В технике сконструированный агрегат подвергают стендовым испытаниям. Полученные результаты приписывают текущему состоянию объекта, имея в виду, что выключенный агрегат до его эксплуатации в реальных условиях уже не будет изменяться сколь-нибудь существенным образом. При этом подразумевается, что именно при работе включенного агрегата может измениться его состояние, в частности, выход из допустимого режима.
В психологии дело, конечно же, обстоит по-другому. И перенос подразумеваемых, имплицитных представлений из технической диагностики в психодиагностику неправомерен, как, впрочем, неправомерен такой перенос уже и по отношению к медико-биологической диагностике человеческого организма. Организм человека, его психика - это не агрегат, который произвольно можно выключить на период от тестирования до реального испытания. Все это время человек продолжает жить, активно взаимодействовать со средой. Даже в изоляции, даже во сне мозг человека проделывает большую работу, переводя полученную информацию из одних отделов памяти в другие (Касаткин В. Н., 1967). Все это означает, что принцип статистической экстраполяции результатов психодиагностического измерения нельзя считать оправданным без проведения специальных проверок.
Когда психолог по результатам тестирования регистрирует у некоторого индивида А показатель Ха, а у некоторого индивида В показатель Хb, так что Хa> Хb, то из этого вовсе не следует автоматически, что соотношение Хa> Хb сохранится в течение следующей недели, месяца, года. Для принятия стратегии экстраполяционного статистического прогноза требуется предварительно произвести эмпирическое измерение надежности - устойчивости (ретестовой надежности) на заданном промежутке времени.
При этом важна не только длина отрезка времени между двумя измерениями, но и его заполненность теми или иными значимыми для индивида событиями. Приведем простой пример. Организовано психологическое обследование абитуриентов вуза. Психологи пытаются измерить уровень интереса поступающих к избранной специальности Однако они применяют «лобовые» методики опроса, не защищенные от преднамеренной фальсификации (абитуриенты сознательно, или даже бессознательно, будут искажать результаты в сторону повышенного интереса - чтобы произвести благоприятное впечатление). Фальсификация здесь - только один из возможных источников некорректности статистического прогноза. Для эмпирического измерения силы этого артефакта не обязательно проводить повторное измерение через несколько лет. Имеет смысл провести повторное обследование по той же методике всех студентов, сразу же после их зачисления на первый курс. Если возникнет слишком много перестановок типа Ха < Хb, то ранговая корреляция «тест -ретест» окажется слишком слабой, и это доказывает неправомерность использования «лобовой» методики для статического прогноза. Другой возможный источник нестабильности ранговой шкалы (порядковой шкалы теста) обусловлен в данном примере зависимостью уровня интереса к предметной области от уровня знаний о предмете. В ходе обучения в вузе студенты приобретают более детальные знания о предмете, о своей успешности в освоении специальности, и от этого уровень интереса может существенно изменяться. Конечно, этот фактор - в отличие от фактора фальсификации - действует на более длительных промежутках времени. И здесь опять же требуются специальные измерения ретестовой устойчивости для применения статического прогноза.
Приведенный выше пример показывает, что в некоторых случаях целесообразно начинать решать проблемы психопрогностики без всякого привлечения внешней по отношению к тесту критериальной информации, т. е. средствами проверки надежности, но не средствами проверки валидности. Если уже таким способом будет получен отрицательный результат, то заведомо будет получен и для измерения валидности статического прогноза (вспомним основной принцип: валидность методики не превышает ее надежность).
Однако надежность лишь необходимое, но, естественно, недостаточное условие прогностической валидности. Можно убедиться в высокой устойчивости тестового показателя на длительных промежутках времени, но из этого вовсе не следует, что будут получены значимые линейные корреляции этого показателя с требуемым критерием валидности -эффективности.- корреляции, оправдывающие статический прогноз.
Как правило, на основе диагностики принимаются решения, которые соотносятся между собой как события на шкале наименований или на шкале порядка. Каким образом учитываются сегодня при приеме в вуз показатели школьной успеваемости абитуриентов? Существуют три варианта, три градации, соотносимые друг с другом по шкале порядка: выпускникам школы - медалистам предоставляются льготные условия (при успехе на первом экзамене от остальных вступительных экзаменов медалист освобождается), лица с удовлетворительным средним баллом допускаются к конкурсным вступительным экзаменам и сдают все экзамены; наконец, лица с неудовлетворительным средним баллом могут вообще не допускаться к вступительным экзаменам. На этом примере видно, что средний балл аттестата используется как некоторый показатель «теста», в соответствии с которым абитуриентов разделяют на три категории, по отношению к которым неявно применяется «порядковый» прогноз: предполагается, что медалисты будут успешнее обычных выпускников школ, а обычные выпускники - успешнее тех, кто учился в школе очень слабо.
«Порядковый» прогноз сохраняет свою эффективность не только в статических условиях, но и в условиях таких динамических изменений объектов прогнозирования, при которых порядковая структура оказывается неизменной. Предположим, что в: ходе обучения в вузе все студенты по мере более глубокого ознакомления с предметом испытывают нарастающий интерес к своей специальности, но если порядковая структура сохраняется (Ха продолжает превышать Xb, несмотря на то что Xb приближается к Ха), то «порядковый» прогноз все равно остается корректным.
Линейные и порядковые прогностические стратегии на практике применяются не к одномерным, а к многомерным данным. Среди математических моделей прогнозирования до сих пор наибольшей популярностью пользуются относительно простые (а иногда и неоправданно упрощенные) регрессионные модели.
При этом для многомерного случая задача психометриста сводится к построению уравнения множественной регрессии:
Y= 1X1+ 2X2…..+ iXi+ kXk (3.5.1)
где Y- прогнозируемая переменная (критерий прогностической ва-лидности);
Xi - значение i-го тестового показателя из рассматриваемой батареи тестовых показателей;
i, - значение весового коэффициента, указывающего, на сколько (в единицах стандартных отклонений) изменяется прогнозируемая переменная при изменении тестового показателя Xi.
Для составления указанного уравнения требуется произвести «упреждающее» измерение тестовых показателей по отношению к критериальному показателю Y, измерение которого производится по истечении некоторого отрезка времени T, называемого в прогнозировании периодом упреждения.
Общая эффективность прогноза на основе регрессионного уравнения оценивается с помощью подсчета коэффициента множественной корреляции R2 (Суходольский Г. В., 1972) и последующей оценки его значимости по критерию Фишера:
(3.5.2)
где - эмпирическое значение статистики Фишера со степенями свободы V1 = k и У2 = N-k;
N— количество индивидов;
k - количество тестовых показателей.
Не следует забывать, что основой применения этой модели прогноза является экстраполяция - предположение о том, что на новом отрезке времени T’ будут действовать те же тенденции связи переменных, что и на отрезке T, на котором прежде измерялись весовые коэффициенты i. Не следует также забывать, что корректность прогноза обусловлена периодом упреждения: для больших (или меньших) T использование уравнения (3.5.1) может оказаться некорректным.
Прогностические возможности указанного метода ограничены однократностью измерения тестовых показателей.X1, Х2..., Xk. В силу однократности измерения этот метод оказывается эффективным опять-таки только по отношению к самым универсальным и статическим показателям (таким, например, как интегральные свойства темперамента или нервной системы), обеспечивающим очень грубый, вероятностный, приближенный прогноз.
В некоторых случаях эффективность этого метода может существенно повыситься, если использовать хотя бы двукратное (с небольшим интервалом в две-три недели) измерение системы показателей Х1 Х2,..., Xk. Уже таким способом можно, например, учесть вклад фактора «усвоение знаний» в прогнозирование мотивационной вовлеченности (уровня интереса) студента в свою специальность. Повторное измерение (например, через месяц после начала обучения в вузе) позволяет выявить, в каком направлении действует фактор «усвоение знаний» в своем влиянии на уровень интереса данного студента: может оказаться, что в результате разнонаправленного действия этого фактора немало пар студентов уже через месяц поменяются местами в ранговом ряду по уровню интереса (Ха< Хb). В этом случае в уравнение (3.5.1) целесообразно ввести не статический показатель Xi a простейший динамический показатель Хi, =. Кроме того, не исключена возможность одновременного использования в уравнении (3.5.1) и статических Xi. и динамических Хi. показателей; тогда разработанная модель прогноза будет учитывать как достигнутый уровень (экстраполировать статику), так и намечающиеся тенденции (экстраполировать тенденции).
Приведем еще один содержательный пример. Многочисленные эмпирические исследования по прогнозированию супружеской совместимости (Обозов Н. Н., 1979) показали неудовлетворительно низкий уровень надежности прогноза на основе таких показателей, как однократно измеренный уровень сходства (темперамента, мотивов, интересов, ценностных ориентации) или взаимодополнительности психических свойств будущих супругов. Но эту надежность можно существенно повысить, если ввести в уравнение (3.5.1) показатели типа Х.. В данном случае содержательно-психологический смысл этих показателей будет заключаться в следующем: они указывают на то, в каком направлении действует на уровень сходства (совместимости) опыт взаимодействия будущих супругов. Потенциально несовместимые супруги в ходе взаимодействия (за период помолвки), как правило, дивергируют в своих показателях (например, имеющиеся незначительные акцентуации характера взаимно усиливаются). И наоборот, потенциально совместимые супруги могут очень быстро конвергировать: оказывается достаточным проведение одного-двух обсуждений с участием психолога по спорным вопросам, чтобы сблизиться в представлениях о желаемом семейном укладе и образе жизни.
Более сложные математические методы прогнозирования (например, учитывающие циклическую динамику объектов) пока еще редко используются в психодиагностике, так как требуют частых многократных измерений системы тестовых показателей, что оказывается невозможным по чисто практическим причинам. Тем не менее уже сегодня можно твердо констатировать недостаточность линейных моделей прогнозирования. Для ознакомления с рядом других подходов к прогнозированию мы рекомендуем психологам обратиться к руководству «Рабочая книга по прогнозированию» (М., 1982).
Остановимся теперь более подробно на подходе, который ныне представляет собой реальную альтернативу ограниченным линейным статистическим моделям и позволяет строить эффективный прогноз для более сложных зависимостей между прогнозируемыми (зависимыми) и прогнозирующими (независимыми) переменными. Этот подход, по традиции, принято называть распознаванием образов, так как разработка его математического аппарата была во многом стимулирована инженерными задачами конструирования искусственных систем зрения, слуха, других органов чувств (Распознавание образов. М., 1970).
В психодиагностике роль «элементарных сенсорных данных» выполняют первичные тестовые показатели X1 Х2,..., Xk, а роль «образа» (выходного сигнала системы) - соответствующая диагностическая категория. Таким образом, по существу, распознавание образов[19]
и есть диагностика в широком смысле.
Поясним специфику подхода на простейшем схематическом примере. Пусть Ру -вероятность такого типового критерия оценки студентов, как успеваемость, Х1 - уровень интереса к специальности, выявленный у абитуриента, Х2 - уровень его знаний о специальности.
На рис. 16 точки X1 = 0 и Х2 = 0 - медианные значения соответствующих тестовых показателей. В данном упрощенном примере в статусе «образа» выступает каждый из четырех квадрантов диагностического пространства. Для предсказания Ру мы не можем построить линейной комбинации Х1 и Х2, какие бы коэффициенты 1, и 2 мы ни взяли. Для предсказания Рy мы должны зафиксировать попадание индивида в заданную область пространства параметров. «Образ», или диагностическая категория, и есть на геометрическом языке определенная область в пространстве параметров.
Рис. 16. Зависимость вероятности критериального события р и диагностических параметров X1 и Х2
С точки зрения распознавания образов, предварительная задача диагностики (предваряющая практические задачи) – определить границы диагностических категорий - областей в пространстве параметров, которым эмпирически корректно могут быть приписаны некоторые пороговые (качественно специфичные) значения прогнозируемого критериального показателя. Это задача построения «разделяющего правила» (или «решающего правила»). Точность такого разделения и предопределяет прогностическую валидность методики на данной совокупности испытуемых в данной диагностической ситуации.
Репрезентативность выборки при этом определяется степенью изменения точности разделения при увеличении совокупности обследованных. Влияние того или иного параметра на точность разделения определяет «вес», с которым входит данный параметр в задачу диагностики.
Построение формальной процедуры разделения может производиться по-разному. В простейшем случае - это сравнение тестового показателя с некоторым порогом. В более сложных случаях применяются методы дискриминантного анализа, позволяющие описывать «разделяющие правила» (границы диагностических областей в пространстве параметров) в виде сложных функций сразу от нескольких параметров.
Применение определенного метода для решения задачи построения системы диагностических категорий определяется несколькими факторами: во-первых, это соответствие допущений, положенных в основу алгоритма, содержательным представлениям о психологической типологии индивидов в рамках рассматриваемой системы психодиагностических параметров; во-вторых, это степень полноты имеющейся информации для эффективной «остановки» алгоритма, обеспечивающей оптимальное решение задачи за приемлемое время.
Под полнотой информации здесь, имеется в виду наличие достаточно многочисленных групп индивидов, четко и однозначно классифицированных по заданной системе критериев. В этом случае построение решающего правила сводится к применению какого-либо алгоритма автоматической классификации, приспособленного к работе с заданными классами. Если же критериальные классы представлены неполно - всего несколькими представителями, для которых при этом не всегда известны все значения необходимых параметров, - то возникает ситуация, требующая применения так называемых эвристических алгоритмов (более подробно о применяемых алгоритмах классификации см. кн.: Типология и классификация в социологических исследованиях. М., 1982).
Остановимся на одном из методов распознавания, получившем применение в психодиагностике, — на семействе алгоритмов вычисления оценок (АВО), предложенном Ю. И. Журавлевым и его учениками (1978).
Основную задачу распознавания образов можно сформулировать как задачу отнесения объекта 5 к одному или нескольким классам К1 К2,..., Кi на основе информации о классах I (K1), (К2),..., I (Кi), информации об объекте I(S) и предположения о близости объекта к классу. Другими словами, задачу распознавания можно сформулировать как задачу определения того, обладает ли объект определенными свойствами.
В основе АВО лежит принцип частичной прецедентности: близость объекта к классу тем больше, чем больше частей в его описании «похожи» на соответствующие части в описаниях' объектов, чья принадлежность классу известна. Например, в одном из вариантов АВО (Зеличенко А. И., 1982) функция близости объекта S к классу К определяется так:
(3.5.3)
где - i-й объект, принадлежность которого к классу К уже известна;
ai (S) - i-й элемент (параметр) в описании объекта;
P1 - его вес;
j - i-й порог.
После того как вычислены Г(S1 K1,),..., Г(S1 K1,) на основании некоторого решающего правила (зависящего от вектора параметров, принимается решение о принадлежности объекта к одному или нескольким классам К1,..., К1 В задачах психодиагностики S- это испытуемый.
Таким образом, каждый вариант АВО определяется набором значений параметров. В нашем случае- это векторы,. Если информация об объекте S представлена в виде I(S) = (а1,..., а2), то элемент вектора опорных множеств j(S) = аi, a j -j-й порог.
В качестве примера решающего правила можно привести следующее (линейное пороговое решающее правило):
объект S принадлежит к классу Kt если
(3.5.4)
объект S не принадлежит к классу Kt если
(3.5.5)
в остальных случаях -отказ от распознавания принадлежности объекта S к классу Kt.
В работе алгоритмов распознавания вообще и АВО в частности можно выделить два этапа: обучение и собственно распознавание. На этапе обучения, как уже говорилось, происходит настройка алгоритма, т. е. выбор таких его параметров, которые обеспечивают оптимальное в нег котором смысле распознавание объектов обучающей выборки (объектов, принадлежность которых к классам К1,...,Ki, известна). На этапе собственно распознавания происходит отнесение к классам K1,..., Кi, тех объектов, принадлежность которых к классам априорно неизвестна.
Точность распознавания на этапе обучения измеряется полнотой и адекватностью распознавания эталонных объектов. Наряду с понятием «точность» (абсолютная отделимость) иногда удобно использовать понятие относительной отделимости объектов обучающей выборки, принадлежащих к различным классам. В случае, когда распознавание ведется для двух классов (например, в профориентации - для дифференциального прогноза успешности оптанта в одной из двух профессиональных областей), относительную отделимость можно определить как
(3.5.6)
где X - точность при обучении (выраженная в процентах), a -минимальная возможная точность обучения (совпадает с долей объектов в наибольшем классе от общего объема обучающей выборки). На этапе собственно распознавания точность характеризует главным образом репрезентативность обучающей выборки (выборки валидизации). Чем выше репрезентативность, тем больше совпадают показателе точности на этапах обучения и собственно распознавания.
Использование АВО кроме решения задачи распознавания позволяет получить следующую информацию:
1. Информационные веса отдельных элементов (параметров) описания объектов. Эти веса измеряются через изменение точности распознавания при исключении соответствующих параметров из описания эталонных объектов:
(3.5.7)
где X - точность распознавания при Рj = 1; X() - точность распознавания при Р. = 0, а а - нормирующий множитель. Информационные веса интерпретируются как мера прогностической важности параметров.
2. Оптимальные значения порогов, т. е. значения, обеспечивающие наивысшую точность распознавания. Эти значения порогов в нашем случае можно.интерпретировать как чувствительность методики; j - своего рода дифференциальный порог на шкале тестового показателя aj определяющий переход индивида из одной диагностической категории в другую. Пусть на этапе разработки теста (тестовой батареи) была обследована группа из К человек, про которых известно, что k1 из них относится к одному классу, а К2 - к другому, К = К1 + К2. Выбрав случайным образом из этой группы М (М<<К) многомерных описаний, проводим на них процедуру обучения алгоритма. Точность обучения характеризует валидность теста. После этого применяем процедуру собственно распознавания (по выработанному решающему правилу) для остальных К-М описаний. В результате этой процедуры мы определяем принадлежность респондентов (испытуемых) к этим классам. Сравнивая полученные результаты с эталонными данными о принадлежности испытуемых к классам, мы определяем точность самого распознавания. Если эта точность близка к точности обучения, то наша пилотажная выборка объемом М может быть признана репрезентативной для обучения. Теперь можно переходить к задаче определения информационных весов.
* * *
Для эффективного использования алгоритмов распознавания по отношению к многомерным тестовым системам (при K>3), как правило, требуется использование компьютера.
При решении задач небольших размерностей (по количеству параметров) иногда психолог может быстрее найти решающее правило, применяя собственные способности зрительной системы (очень мощные) к визуально-геометрической группировке объектов. В пространстве параметров диагностические, классы выглядят как «сгущения», некие «облака» из точек, изображающих испытуемых. В этом случае при наличии априорной информации о принадлежности индивидов к классам удобно изображать точки из различных классов разными цветами (хуже - квадратиками, кружками, треугольниками). В этом случае «решающее правило» легко «увидеть» как некую воображаемую линию (прямую или кривую), разделяющую точки разного цвета (рис. 17). Точность диагностики в данном случае можно оценить по количеству точек, попавших при данном решающем правиле в «чужую» половину пространства параметров.
Рис.17. Разделение двух классов объектов (изображены кружками и треугольниками) в пространстве двух параметров X1, и Х2
Точность правила, изображенного на рис. 17, равна:
10 | 2 |
3 | 12 |