Матрица возможных сочетаний признаков. Прямоугольная матрица исходных данных

Для Windows Phone 07.04.2019
Для Windows Phone

Лабораторная работа 1

Представление исходных данных

Цель работы: обучить студентов способам представления исходных данных, включающих три матрицы: «объект – признак», «признак – признак», «объект – объект». Показать возможности и научить пользоваться методом главных компонентов, который позволяет визуализировать многомерные данные в сокращенном признаковом пространстве.

Пакет: Statistica ; версия 6.0

1.Выбрать файл данных из пакета: последовательно нажав File Open , приходим к папке Examples , в которой из папки Datasets выбираем файл данных, озаглавленный Economic Indicators (Экономические индикаторы) . Здесь можно выбрать любой другой файл или ввести свои данные. В результате этих действий получаем матрицу «объект-признак», состоящую из 40 строк (cases ) и 4 столбцов (variables ), часть которой приведена в табл.1.

Таблица 1. Матрица «объект-признак»

2. Перейти к матрице «признак – признак», посредством следующих действий: в командной строке окна выбрать опцию Statistics , в которой указать позицию Basic Statistics / Tables (Основные статистики / таблицы) . В открывшемся окне отметить Correlation Matrices (Корреляционные матрицы) и нажать OK. Далее выбрать все переменные из первого списка. В итоге должна получиться матрица корреляций между признаками размерностью 4х4, вид которой показан в табл.2.

Таблица 2. Матрица «признак - признак»

Проанализировать полученные результаты.

3. Перейти к матрице «объект-объект» следующими операциями: в командной строке окна выбрать опцию Statistics , в которой указать позицию Multivariate Exploratory Techniques (Многомерные методы) и далее - Cluster Analysis - Joining (Кластерный анализ –объединение), после чего нажать ОК. В открывшемся окне кластерного анализа, показанном на рис.1, в опции С luster (Кластер) выбрать Cases (Строки) , поскольку группируются объекты и нажать ОК.

Рис.1. Окно кластерного анализа

В открывшемся окне Joining Results (Результатов объединения) выбрать Distance Matrix (Матрицу расстояний), которая и представляет собой матрицу «объект-объект», размерностью 40х40, часть которой приведена в табл.3.

Таблица 3. Матрица «объект-объект»

Пользуясь такой матрицей, можно построить дендрограмму объединения объектов, сходных или различных по четырем признакам. Для этого в окне Joining Results нажать клавишу Vertical icicle plot (Вертикальная дендрограмма) , в результате чего приходим к графику, показанному на рис.2.

Рис.2. Дендрограмма объектов-стран

Полученная дендрограмма указывает порядок и уровень объединения стран, сходных между собой, а также сформировавшиеся кластеры (группы) сходных стран. В данном примере образовано 4 кластера.

1.В командной строке окна выбрать опцию Statistics , в которой указать позицию Multivariate Exploratory Techniques и далее - Principal Components (Главные компоненты…). В окне главных компонентов, показанном на рис.3, выбрать все переменные для анализа (for analysis - all ), после чего нажать OK.

Рис.3. Окно главных компонентов

2. В открывшемся окне выбрать опцию Variables (Переменные) и просмотреть собственные числа, показанные в табл.4

Таблица 4. Собственные числа

Оценка потерь информации при переходе к только двум главным компонентам в данном примере составляет около 2,5%.

3. Выбрав в предыдущем окне опцию cases (строки) можно построить 2D график, нажав клавишу Plot cases factor coordinates (График строк в факторных координатах) . Результат показан на рис.4.

Рис.4. 40 стран в плоскости первых двух главных компонентов

Пакет: Statgraphics , версия 5.1

1. При запуске программы на появляющиеся последовательно два вопроса:

Какую задачу вы хотите выполнить? и Где ваши данные?

дать следующие ответы:

Analyze Existing Dates or Enter New Data (Анализ существующих данных или ввод новых данных) и – In an Existing Statgraphics Plus Data File (В существующем файле данных).

Затем выбрать для анализа файл Cardata (можно выбрать любой другой файл или ввести свои данные).

Появившаяся таблица представляет собой матрицу «объект-признак» (155 строк x 9 столбцов). Часть этой матрицы показана в табл.5.

Таблица 5. Матрица «объект-признак»

2. Перейти к матрице «признак – признак», выбрав в командной строке Describe (Описать), а затем последовательно Numeric Data Multiple Variable Analysis (Числовые данные – многомерный анализ) . В появившемся окне многомерного анализа в качестве данных необходимо использовать только количественные переменные, например, такие, как указано на рис.5. Для этого их надо поместить в поле Data . Кроме того, для лучшего просмотра результатов желательно сократить количество строк матрицы, ограничившись, например, 20, для чего в поле Select надо набрать такую строку: first (20).

Рис.5. Окно многомерного анализа

Результаты корреляционного анализа, т.е. матрица «признак-признак» показана в табл.6.

Таблица 6. Матрица «признак-признак»

Визуализация многомерных данных

Для решения такой задачи используется метод главных компонентов.

1. В командной строке выбрать Special (Специальные) , а затем Multivariate Methods - Principal Components (Многомерные методы – главные компоненты) .

2. В окне диалога входных данных выбрать переменные для анализа, как и в первом случае и ограничиться 20-30 объектами.

3. Выделить табличные опции: Analysis Summary , Component Weights , Data Table (Итоговый анализ, компонентные веса, таблица данных) и проанализировать их. Табл.7 представляет собой итоговый анализ.

Таблица 7. Итоговый анализ

Оценить потерю информации при выборе двух или трех главных компонентов. Для рассматриваемого случая при сохранении, соответственно, двух и трех главных компонентов потеря информации составляет примерно 13% и 3% .

3. Выделить графические опции (2 D Scatterplot , 3 D Scatterplot ) . Для чего вначале при нажатии правой клавиши мыши выделить опцию Analysis Options (Анализ опций) и в появившемся окне указать выделение по числу компонентов (Extract by Number of Components ) . Полученные графики приведены на рис.6 и 7.

Построить графики и промаркировать объекты.

Рис.6. Объекты в двумерной плоскости

Рис.7. Объекты в трехмерном пространстве

Задание

1. Провести такой анализ для других данных обоих пакетов.

2. Ввести данные по результатам сессии 9 студенческих групп, сдавших по 4 экзамена (табл.8). В табл.8 приведены средние баллы по каждому экзамену (ОИ - отечественная история; ЭТ – экономическая теория; МА – математический анализ; ЛА – линейная алгебра) для каждой из 9 групп. Представить результаты в виде главных компонентов в двумерной плоскости (группы - на плоскости).

Таблица8. Средние баллы каждой группы по 4 экзаменам

Смысл того или иного преобразования исходных данных заключается в изменении характера эмпирического распределения с тем, чтобы привести его в соответствие с целью исследования. Чаще всего преобразование используется для того, чтобы ослабить влияние экстремальных значений признаков на результаты расчетов, компенсировать влияние возможных ошибок в исходных данных, сделать сопоставимыми изменения значений признака на разных участках шкалы его значений.

Влияние характера распределения на результаты расчетов весьма велико, поэтому при постановке задачи следует особо рассмотреть вопрос о выборе вида преобразования для каждого признака в отдельности.

В социально-экономических исследованиях преобладают ряды, имеющие правую скошенность (т. е. резкий спад частот с ростом значения признака). При работе с такого рода распределениями часто бывает удобным преобразование к логарифмической шкале. Переход от Xj к ряду значений 1 gXj уменьшает интервалы по мере роста значений Такое преобразование широко используется, например, при изучении систем городов. Различия в значениях признаков для крупных городов обычно во много раз превышают соответствующие различия для большого числа средних и мелких городов. Преобразование к логарифмической шкале делает возможным исследование этих данных в одной задаче.

Как правило, признаки, отобранные исследователем для всестороннего описания того или иного явления, имеют различную размерность, а поэтому и- различную единицу масштаба. Чтобы сделать возможным сопоставление признаков и устранить влияние размерности, матрицу исходных данных обычно трансформируют (нормируют), вводя единый для всех признаков масштаб. Самый распространенный вид такой нормировки матрицы данных - приведение к стандартной форме, т. е. переход от значений х^ к

где Xij - значение /-го признака для і-то объекта; Xj - среднее арифметическое значение /-го признака; Sj - среднеквадратичное отклонение /-го признака (Sj2 - дисперсия /-го признака).

Ниже, рассматривая матрицу исходных данных, мы будем иметь в виду матрицу, заданную в стандартной форме, т. е. с элементами гц.

Возможны и другие типы трансформации матрицы. Например,

а _ Xii~X* h ХИ

Z maxfxij}- шіп{д:іі} ИЛИ Z ІЗ ~ И т. д.

Следует отличать преобразование отдельных рядов* с целью привести их в соответствие с. содержательной постановкой задачи от нормировки матрицы в целом. В отличие от подбора вида преобразования индивидуально по каждому признаку матрицу нормируют единым способом.

Следует упоімянуть еще и специальные преобразования, которые служат важным инструментом учета качественной априорной информации об исследуемых данных, непосредственно в исходной матрице данных не содержащейся. К таким преобразованиям относятся различные способы пополнения исходной матрицы данных производными параметрами. Часто в качестве таких новых параметров фигурируют отношения некоторых из исходных параметров, или отношения сумм одних из исходных параметров к суммам других. Нередко используются заранее изученные нелинейные преобразования исходных параметров.

Ниже, рассматривая нормированную матрицу данных (матрицу данных в стандартной форме), будем предполагать, что все специальные преобразования, включая преобразования данных к однородному виду с желаемыми формами распределения статистических рядов отдельных параметров, выполнены до ее нормирования.

Нормирование - последнее преобразование исходной матрицы, непосредственно предшествующее обработке методами факторного анализа.

Таким образом, матрица. исходных данных, подготовленная для факторного анализа, представляет собой совокупность значений п признаков для N объектов. Будем обозначать эту матрицу через ||z Особое внимание должно быть уделено вопросам нормировки исходных данных при решении задачи классификации объектов. В основе анализа вариации переменной лежит понятие среднего значения и отклонения от этой средней. Если в качестве переменной выступает признак, понятие среднего значения имеет четкий содержательный смысл и определяется в тех же единицах измерения, что и признак. На показатели ва риации признака его размерность не влияет. При классификации объектов переменной является объект (страна, город, предприятие и т. д.), не имеющий определенной единицы измерения, поэтому понятие среднего значения здесь в общем случае не поддается интерпретации. Как правило, вариация переменной - объекта- это вариация значений, принимаемых данным объектом по признакам разной размерности, поэтому показатели вариации определяются прежде всего изменением единиц измерения от одного признака к другому. Даже если все признаки выражены в одних и тех же ^ единицах измерения, например в денежном выражении (объем производства в млн. руб., объем розничной торговли в тыс. руб., средний заработок в руб. и т. д.), различия между показателями по масштабу величин проявляются при факторизации.

При факторизации матриц данных, сопоставляющих объекты по значению различных признаков (т. е. при решении задач классификации объектов, при Q-анали- зе), вместо коэффициента корреляции используются особые, специально разработанные коэффициенты , измеряющие степень сходства двух объектов не только по характеру соизменения их значений от признака к признаку, но и по уровню проявления одноименных признаков на этих объектах.

Этой мерой часто пользуются для сравнения объектов в различных методах автоматической классификации и распознавания образов .

Если указанные векторы нормированы так, что их, длины равны одной й той же стандартной величине, например единице:

2 {%ji ^кг)2 "

Наиболее простой мерой для определения сходства двух объектов является эвклидово расстояние r(Xj, Хъ) между векторами-столбцами Xj и хи, определяющими объекты:

то в качестве меры сходства таких нормированных векторов можно выбрать скалярное произведение (хи Xj) векторов хІ и Xj (более подробно различные меры сходства между объектами разбираются в гл. 6). 1.

Еще по теме НЕОБХОДИМЫЕ ПРЕОБРАЗОВАНИЯ МАТРИЦЫ ДАННЫХ:

  1. ФАКТОРНЫЙ АНАЛИЗ КАК ЧАСТЬ ОБЩИХ МЕТОДОВ ОБРАБОТКИ МАТРИЦ ДАННЫХ
  2. КРИЗИС АДМИНИСТРАТИВНО-ПЛАНОВОЙ СИСТЕМ И НЕОБХОДИМОСТЬ ПЕРЕХОДА К РЫНОЧНОЙ СИСТЕМЕ ЗАДАЧИ МАКРОЭКОНОМИЧЕСКОЙ СТАБИЛИЗАЦИИ ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ ИНСТИТУЦИОНАЛЬНЫЕ ПРЕОБРАЗОВАНИЯ ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ СОЦИАЛЬНАЯ ПОЛИТИКА ПРИ ПЕРЕХОДЕ К РЫНОЧНОЙ СИСТЕМЕ

Понятно, что общее число возможных карточек–примеров в данном случае равно числу всех гипотез с 4 признаками, т.е. 81. Именно столько карточек и составляет стимульный материал в методике Брунера. Каждому понятию с одним признаком соответствует 27 карточек–примеров, с двумя признаками – 9 карточек, с тремя – 3, а с четырьмя – 1.

2. Сокращение числа гипотез и информативность различных примеров. Рассмотрим теперь, каким образом будет сокращаться число возможных для испытуемых гипотез о содержании задуманного экспериментатором понятия при последовательных встречах с различными примерами. Легко видеть, что первый же положительный пример (любой!) устраняет 80 гипотез с четырьмя признаками, 104 – с тремя, 30 – с двумя и 8 – с одним. Иначе говоря, выбор испытуемого после встречи с первым положительным примером ограничивается 1 + 4 + 6 + 4 = 15 гипотезами (понятно, что их число равно числу всех возможных сочетаний признаков – табл. 2). Важно также заметить, что число гипотез, остающихся после встречи с первым положительным примером, не зависит от содержания задуманного понятия.

На втором шаге работы испытуемого он может встретиться как с положительными, так и с отрицательными примерами, причем – с положительными, совпадающими с первым примером по одному, двум или трем признакам, а с отрицательными – отличающимися от первого по одному, двум, трем или всем четырем признакам. Число гипотез, устраняемых в каждом из этих случаев, дано в таблице.

2. Число гипотез, устраняемых на втором шаге испытуемого, при встрече с различными типами примеров

Из табл. 2 видно, что на втором шаге работы испытуемого различные типы встречаемых им примеров существенно различаются по числу гипотез, которые они позволяют устранить при рациональной работе испытуемого. Наиболее «информативными» являются примеры первого типа – такой пример позволяет устранить все гипотезы, кроме одной, и, таким образом, уже на втором шаге отгадать задуманное понятие. Наименее информативными, пустыми, оказываются отрицательные примеры первого типа – они не позволяют устранять ни одной гипотезы. Легко заметить, что пустых или комплементарных положительных примеров быть уже не может.

На очередном, третьем шаге работы испытуемый может встретить уже только три типа примеров, совпадающих/различающихся по одному или двум признакам, а также пустые. Причем встреча с положительным примером, совпадающим, или с отрицательным, различающимся с первым по одному признаку, снова ведет к решению задачи. Наконец, на четвертом шаге испытуемый может встретиться или с пустым примером, или же с примером, совпадающим/отличающимся по одному признаку, и, таким образом, даже в случае наиболее неблагоприятных примеров на предыдущих шагах отгадать задуманное экспериментатором понятие. Иначе говоря, если не считать пустых примеров, рационально действующий испытуемый непременно решит задачу за четыре шага. Это и есть минимальное «логически необходимое» число непустых примеров, которое гарантирует уверенное решение задачи даже в наиболее неблагоприятном случае.

Идеальные и реальные стратегии. Из разбора шагов, ведущих к последовательному сокращению числа альтернативных гипотез, можно увидеть, что всегда существует некоторая идеальная (рациональная) стратегия, с необходимостью приводящая к решению поставленной задачи. В данном случае нетрудно было опознать стратегию фокусировки. Было бы неверным, однако, считать, что это единственная идеальная стратегия, ведущая к решению задачи, или даже что она наиболее эффективна в любом случае. Применение всякой идеальной стратегии позволяет достигать конкретных целей, которыми (в разных случаях) могут становиться: 1) максимизация получаемой информации; 2) снижение нагрузки на память и логическое членение; 3) образование данного понятия за минимальное число шагов; 4) сведение к минимуму числа ошибочных гипотез в процессе образования понятия; 5) достижение субъективной уверенности в правильном образовании понятия вне зависимости от числа примеров, с которыми встретился испытуемый, и др.

Понятие идеальных стратегий является средством анализа и описания реальной работы испытуемого в эксперименте. Оно не только задает единицу анализа процесса образования понятия, позволяя рассматривать отдельные шаги этого процесса как необходимые и несамостоятельные моменты целого, но также открывает путь для исследования разнообразных зависимостей, существующих между отдельными составляющими ситуации.

Типы реальных стратегий представляют собой качественные значения зависимой переменной в экспериментах по образованию искусственных понятий. Умение правильно идентифицировать рассмотренные стратегии является критерием освоения методики Брунера. Если цель достигнута, можно приступить к постановке и решению собственно исследовательских вопросов о факторах, определяющих выбор той или иной стратегии. Пример такого использования методики в исследовательских целях дает задание № 11 в разделе «Экспериментальный метод» исследовательского практикума.

Литература: 10; 15.

§ 14. Задание 12. Использование теории информации в модифицированном варианте методики образования искусственных понятий

Тема задания

Знакомство с модификацией методики образования искусственных понятий, предложенной О. К. Тихомировым.

Введение

Информация как количественное понятие имеет смысл только как результат осуществления какого–либо события, имеющего некоторую вероятность. Вероятностные же свойства объектов в экспериментах Дж. Брунера не анализировались и не являлись предметом исследования. Эксперименты проводились с испытуемыми однократно. Целью их было только посмотреть, какую стратегию выберет испытуемый в зависимости от варьирования некоторых условий. В таком эксперименте, естественно, нельзя было ставить вопрос о том, могут ли испытуемые прийти к оптимальной в соответствующих условиях стратегии в результате тренировки, какими факторами обусловливается изменение стратегий.

Для того чтобы ответить на эти вопросы, необходимо было изменить методику таким образом, чтобы испытуемый находился в ситуации выбора различных информативных элементов в течение длительного времени, что достигается многократным предъявлением ему ограниченного набора задач. При таких условиях оказывается возможным выяснить, чем обусловливается его поисковая деятельность, вскрыть факторы, определяющие и регулирующие ее осуществление.

Модификация методики О. К. Тихомировым. Соответствующая методика была предложена О. К. Тихомировым. Задачей исследований О. К. Тихомирова являлось изучение закономерности самостоятельного решения человеком задач с неопределенностью, т.е. задач, решение которых может заканчиваться различным результатом, и следовательно, до нахождения решения существует известная неопределенность относительно конечного результата задач на распознавание явлений.

Для этой цели было применено сопоставление хода реального процесса решения мыслительной задачи на классификацию с оптимальным способом ее решения, выводимым на основании специальных математических расчетов, в результате чего оказывается возможным получить некоторую характеристику реального процесса.

Использованная методика была во многих отношениях сходной с методикой образования искусственных понятий в варианте Выготского–Сахарова. И в том, и в другом случае задача испытуемого заключается в нахождении методом последовательных проб принципа классификации, избранного экспериментатором. Если же рассматривать группы объектов, которые в результате классификации должен был выделить испытуемый по аналогии с образованием искусственных понятий (определение каждой группы рассматривать как образование искусственного понятия), то основное отличие данной методики от методики Выготского–Сахарова заключается в том, что основание такой классификации является переменным, – центральный момент методики О. К. Тихомирова. Именно переменный характер классификации объектов позволил использовать для описания оптимальных способов решения задач методы теории вероятности и теории информации, так как это приводило к созданию статистической характеристики обследуемых объектов. С описанной модификацией методики Выготского–Сахарова студенты должны ознакомиться в настоящем задании.

Цель задания – применить использование теории информации для изучения процесса образования искусственных понятий.

Статистическая структура обследуемого поля. В методику входит весь набор стимульного материала, и указаны наборы карточек, которые рекомендуется использовать в опытах.

В качестве наборов гипотез предлагается рассмотреть те 3 набора, которые представлены ниже, в разделе «Экспериментальный материал» с 2, 4 и 14 объектами в группе.

При заданных условиях в длинном ряду предъявлений стимульных объектов (карточек) (рис. 12) каждая гипотеза может реализоваться (соответствовать предъявляемым карточкам) в среднем одинаковое число раз. Следовательно, вероятность реализации для каждой гипотезы равна: для I набора Р 1 = Р 2 = 1 / 2 ; для II набора Р 1 = Р 2 = Р 3 = Р 4 = 1 / 4 ; для III набора Р 1 = Р 2 = Р 3 = ... = Р 14 = 1 / 14 . Очевидно, что чем больше возможных исходов, предъявляемых испытуемому для распознавания гипотез, тем более неопределенен конечный исход решения. Используя теорию информации, можно выразить неопределенность опыта более точно. В теории информации показано, что неопределенность опыта – Н, или энтропия, – является функцией числа возможных исходов и вероятности их реализации:

где Р – вероятность отдельного исхода опыта. Если исходы равновероятны, то Н = lg 2 M , где М – число возможных исходов опыта.

Таким образом, условия разбираемой нами задачи будут описываться так: 1) Н= lg 2 2 = 1 дв. ед.; 2) Н= lg 2 4 = 2 дв. ед.; 3) Н– lg 2 14 = 4 дв. ед. В принятых условиях эксперимента каждый из объектов, помимо своих постоянных признаков – количества фигур, нарисованных на карточках, их цвета, формы и фона (или числа каемок), приобретает совершенно определенную статистическую характеристику частоты, с которой этот объект оказывается входящим в искомую группу при многократном решении задач. Все объекты, таким образом, распределяются на две категории: объекты, которые никогда не входят в искомую группу; объекты, которые всегда входят в группу с вероятностью больше нуля, но меньше единицы. В связи с тем что объекты помимо своих постоянных признаков в принятых условиях приобретают еще один переменный признак (вхождения или невхождения в искомую группу), каждую отдельную пробу следует рассматривать также как опыт, могущий иметь несколько различных исходов с различной вероятностью их реализации и, следовательно, характеризующийся неопределенностью:

Таким образом, процесс решения задачи выступает как процесс последовательного обследования поля, имеющего некоторую статистическую характеристику, а отдельные пробы могут относиться к объектам с различной энтропией появления проверяемого признака. Поскольку получаемая информация равна уменьшению исходной неопределенности: I = H 1 – Н 2 , результаты проверки различных объектов могут различаться по их информативности. Применим теперь тот же метод к анализу второй пробы с учетом одного осложняющего условия: если перед первой пробой для каждой программы статистическая характеристика обследуемого поля является постоянной, то перед вторым выбором распределение вероятностей получения «да» для всех объектов поля зависит от результатов предшествующего выбора, т.е. имеет место некоторое распределение условных вероятностей.

Поскольку отдельные пробы имеют различную информативность, множество различных способов решения данной задачи можно оценивать по тому, как соотносятся необходимая и избыточная информации, собираемые испытуемым, для решения этой задачи при применении различных способов.

При распознавании гипотез в одном наборе оптимальным способом поиска будет выбор любого объекта с вероятностью получения положительного ответа 0,5, дающий информацию, равную 1 дв. ед. При распознавании гипотез во втором наборе оптимальным способом поиска будет являться последовательный выбор двух объектов, дающий каждый соответственно по 1 дв. ед.

Методика

Опыт состоит из 2 частей: 1) с расположением объектов, данном в Приложении; 2) с измененным (произвольно) порядком карточек, но с тем же набором гипотез.

Полученные данные должны быть использованы для ответов на следующие вопросы:

♦ Как влияет неопределенность условий задачи на ход ее решения?

♦ Как протекает обследование поля до выявления его статистической характеристики и после?

♦ Влияет ли пространственное расположение объектов на протекание поиска?

Экспериментальный материал. В эксперименте используется набор объектов (81 шт.): карточки белого, желтого и зеленого цветов, на которых изображены геометрические фигуры разной формы – квадраты, треугольники, кружки; все они разного цвета – черные, красные или синие в разном количестве по 1, 2, 3. Полный комплект карточек (81 шт.) раскладывается перед испытуемым в таком порядке, как они представлены на вкладке (см. рис. 12). Экспериментатором заранее составляются некоторые наборы гипотез и соответствующих им объектов, составляющих определенную группу, которые будут предложены испытуемому для распознавания, т.е. для образования экспериментального понятия.

Возможные наборы гипотез:

1. 3 квадрата

2. 3 черные фигуры

1. 3 квадрата

2. 3 черные фигуры

3. Все черные фигуры

4. Все черные фигуры на белом фоне

1. Квадраты

2. Черные фигуры

3. 3 фигуры

4. Фигуры на белом фоне

5. 3 квадрата

6. 3 черные фигуры

7. Черные фигуры на белом фоне

8. Квадраты на белом фоне

9. 3 фигуры на белом фоне

10. Черные квадраты

11.3 черных квадрата

12. 3 квадрата на белом фоне

13. Черные квадраты на белом фоне

14. 3 черные фигуры на белом фоне

Ввиду трудоемкости вычислений и значительного времени, которого требует проведение данного опыта, в особенности с предъявлением для распознавания испытуемому набора, состоящего из 14 гипотез, последний приводится здесь для иллюстрации; студенты могут ограничиться предъявлением лишь первых двух наборов гипотез или не доводить поиск в случае предъявления 14 гипотез до оптимального способа.

Подготовка экспериментального материала включает также следующий этап: используя таблицу случайных чисел, экспериментатор составляет последовательность предъявления испытуемым каждой гипотезы (в случайном порядке); каждой соответствует определенный набор объектов (20 предъявлений к I и II набору и 28 предъявлений к III набору). В случае если за такое количество времени испытуемым не находится оптимальный способ решения данной задачи, экспериментатор начинает задавать гипотезы снова в том же порядке. Испытуемый не должен знать, какие гипотезы и сколько раз могут быть предъявлены ему для распознавания.

Отработка задания

Опыт проводится с одним испытуемым первоначально с набором из 2 гипотез, а затем, после перехода испытуемого в этом случае к оптимальному поиску, экспериментатор без предупреждения переходит к предъявлению для распознавания набора из 4 гипотез. Весь опыт продолжается до тех пор, пока испытуемый не начинает стабильно, в течение ряда задач (6–8), определять в каждом случае требуемую гипотезу, используя оптимальную стратегию поиска. Пробы, делаемые испытуемым в процессе опыта, регистрируются на специальном бланке, каждая клетка которого соответствует определенному объекту (карточке) из всего набора, предлагаемого испытуемому. Экспериментатор отмечает номер сделанного испытуемым выбора на бланке. Каждый такой бланк является протоколом решения испытуемым каждой отдельной задачи – распознавания задуманной группы объектов в каждом конкретном случае. На бланке–протоколе обязательно фиксируются номера задач. Образец бланка с зафиксированным ходом опыта дан в Приложении.

В каждой части опыта участвуют экспериментатор и один испытуемый. Вся группа испытуемых делится на две подгруппы – для участия в первой и второй частях опыта.

Инструкция испытуемому: «Перед вами расположен набор объектов (карточек), характеризующихся различными признаками. Экспериментатор задумывает некоторую группу этих объектов. Вам предстоит определить, что это за группа. Для этого Вы можете указать на любой объект и спросить экспериментатора, входит ли он в задуманную группу карточек. Подобные выборы объектов осуществляйте до тех пор, пока Вам не станет ясно, какую группу объектов задумал экспериментатор. Вы должны назвать эту группу. Если ответ экспериментатора окажется отрицательным, продолжайте поиск. Старайтесь при нахождении требуемой группы делать как можно меньше проб отдельных объектов».

Последнее требование инструкции повторяется часто, перед решением почти каждой задачи, пока испытуемый не перейдет к оптимальному поиску с минимальным числом проб.

Обработка результатов

Для получения данных в целях ответа на первый вопрос требуется подсчитать общее количество решенных задач, предшествующее устойчивому осуществлению испытуемыми оптимального поиска в случае предъявления первого и второго набора гипотез.

Как уже указывалось, оптимальным способом поиска для I набора гипотез будет опробование любой карточки с вероятностью получения положительного ответа 1 / 2 . Для II набора гипотез необходимо опробовать уже две карточки: первую – с вероятностью получения ответа «да» – 1 / 2 , и вторую, вероятность получения ответа «да» которой будет 1 / 2 после осуществления первого выбора.

В табл. 1 показано распределение вероятностей получения положительного ответа для I набора гипотез при расположении карточек первой части опыта.

Для получения данных по второму вопросу требуется проследить, каким образом испытуемый осуществляет поиск в каждой конкретной задаче, для чего требуется подсчитать количество информации, получаемой им при осуществлении каждого выбора.

При предъявлении I набора гипотез это делается просто, так как из приведенных выше формул ясно, какое количество информации получает испытуемый в каждом выборе. Экспериментатор должен фиксировать, на каком этапе испытуемым получена требуемая информация 1 дв. ед. и как долго продолжается после этого последующий поиск. При каждом выборе в этом случае испытуемый будет получать нулевую информацию.

При предъявлении II набора гипотез дело несколько усложняется, так как после первых выборов по–разному будет изменяться статистическая характеристика обследуемого поля, и экспериментатор должен сам научиться ее определять. Покажем на примере, как это делается. Предположим, что испытуемый первым назвал объект «3 синих круга на желтом фоне». Из табл. 2 видно, что вероятность получения положительного ответа при выборе этой карточки равна 0, и полученная информация, следовательно, тоже равна 0; статистическая характеристика поля остается неизменной.

Допустим теперь, что испытуемый назвал карточку «3 черных квадрата на белом фоне». Вероятность получения положительного ответа в этом случае равна 1 и, следовательно, полученная информация также равна 0 при неизменной статистической характеристике поля. Возьмем, наконец, случай первого выбора испытуемым карточки, характеризующейся некоторой средней вероятностью получения положительного ответа о принадлежности ее к задуманной группе, например карточки «1 черный круг на белом фоне». Из табл. 2 видно, что вероятность ее равна 0,5. Следовательно, при ее выборе испытуемый получает 1 дв. ед. информации. Экспериментатор должен рассуждать следующим образом: если ответ положительный, следовательно, искомыми могут оставаться или группа «все черные фигуры», или группа «черные фигуры на белом фоне», а группы «3 квадрата» и «3 черные фигуры» быть не могут. Если же ответ отрицательный, напротив, остаются возможными последние две гипотезы. Исходя из этих соображений составляется новая статистическая характеристика поля: при положительном ответе (табл. 3) и отрицательном ответе (табл. 4).

7.6. Латентно-структурный анализ (ЛСА) Лазарсфельда

7.6.1. Простейший вариант ЛСА: вход и выход

Рассмотрим частный случай ЛСА - тот, который в свое вре­мя был предложен самим Лазарсфельдом. Перейдем к его описа­нию, подчеркнув, что тех ограничений, к перечислению кото­рых мы переходим, при настоящем состоянии техники ЛСА можно и не делать (о развитии ЛСА можно прочесть в [Гибсон, 1973; Дегтярев, 1981, Ι995; Лазарсфельд, 1966, 1973; Осипов, Андреев, 1977, с. 140-151; Статистические методы анализа..., 1979, с. 249-266; Типология и классификация..., 1982, с. 99- 111; Lazarsfeld, Henry, 1968]; о некоторых аспектах применения этого подхода в социологии см. также [Батыгин, 1990; Соци­альные исследования..., 1978, с. 15]).

В своих работах Лазарсфельд неоднократно упоминает о том, что его подход имеет самое непосредственное отношение к тео­рии тестов. Начнем описание ЛСА в соответствии со сформули­рованными выше принципами тестовой традиции.

Итак, мы предполагаем, что имеется совокупность респон­дентов, для которых существует одномерная латентная номи­нальная переменная с заданным числом градаций к. Пусть для определенности к = 2. Имеется анкета с N дихотомическими воп­росами. Предполагается, что вопросы подобраны таким обра­зом, что респонденты с разными значениями латентной пере­менной почти всегда по-разному будут отвечать на вопросы ан­кеты, а с одним и тем же значением - как правило, будут давать примерно одинаковые ответы. Предположим также, что за счет этого связь между наблюдаемыми переменными можно объяс­нить действием латент-ной переменной.

Приведем пример. Пусть наши респонденты - московские студенты, латентная переменная - их отношение к будущей специальности. Вопросы имеют примерно такой вид:

1) Часто ли Вы посещаете библиотеку (не реже раза в неде­лю)?

2) Имеется ли у Вас домашняя библиотека из книг по специ­альности (не менее 10 книг)?

3) Читали ли Вы когда-нибудь книгу по специальности по собственной инициативе, без рекомендации ее преподавателем?

4) Были ли у Вас двойки на экзаменах?

5) Случалось ли Вам, присутствуя на лекции, слушать плей­ер?

6) Часто ли Вы пропускаете лекции (более трех лекций в неделю)?

Ясно, что студенты, мечтающие о работе по приобретаемой специальности, будут на первые три вопроса давать, как прави­ло, положительные ответы, а на последние три - отрицатель­ные. А для студентов, равнодушно или негативно относящихся к выбранной специальности, будет иметь место обратная картина.

Ясно также, что между рассматриваемыми наблюдаемыми пе­ременными будет иметься статистическая связь и что ее, всего ве­роятнее, можно будет объяснить действием латентной переменной. Это проявится в том, что при фиксации значения латентной пере­менной эта связь пропадет. Заметим, что это, уже неодно-кратно упоминаемое нами положение, Лазарсфельд первым четко сфор­мулировал и назвал аксиомой локальной независимости.

Исходной информацией для ЛСА служат частотные таблицы произвольной размерности (размерность таких таблиц зависит от заданного числа значений латентной переменной). Обозна­чим через р. - вероятность положительного ответа наших рес­пондентов на /"-й вопрос (долю респондентов, давших такой от­вет); через р.. - вероятность положительных ответов одновре­менно и на /"-й, и на у"-й вопросы; через ρ к - вероятность поло­жительных ответов одновременно на г"-й, у"-й и к-й вопросы и т. д.

Те же буквы с индексом 1 наверху (р/, />..", ρ к") будут обозначать соответствующие частоты для первого латентного класса, с индек­сом 2 наверху (pf, ρ 2 , pjjk) - то же для второго латентного класса.

р.-к - вероятность положительного ответа на /-й и к-й вопро­сы и одновременно - отрицательного ответа на у"-й вопрос.

V, V2 - доли латентных классов в общей совокупности рес­пондентов.

Рассмотрим произвольный набор ответов на вопросы анке­ты, например, +н-I-К Через Ρ (1/+-Ι-ι--Н) обозначим ве­роятность того, что респондент, давший набор ответов +н-\- + , попал в первый латентный класс, а через Ρ (2/+Η-I-Η) - то же, для второго латентного класса.

Для описания исходных данных и результатов применения ЛСА прибегнем к "кибернетической" терминологии. Вход ЛСА.

Частоты любой размерности:p., p.., pjjk. Другими словами, ЛСА работает с частотными таблицами. Это не может не привлекать социолога: метод может работать со шкалами любых типов.

Выход ЛСА.

а) Аналогичные частоты для каждого латентного класса. В на­шем случае с двумя латентными классами это будут частоты вида Р/>Р,/,Р„к""Р/,Р/,Р1]к2-

Эти совокупности частот могут рассматриваться как описания латентных классов. Анализ таких описаний может послужить для уточнения представлений о той латентной переменной, существо­вание которой априори постулировалось, в частности, может при­вести исследователя к выводу о том, что ей следует дать другое название (ср. наши рассуждения о понятии "латентная перемен­ная" в п. 1.1). Подчеркнем, что такая возможность, с одной сторо­ны, выгодно отличает подход Лазарсфельда от остальных рассмот­ренных нами методов одномерного шкалирования (скажем, при использовании шкал Лайкерта или Терстоуна даже не ставится вопрос о том, что переменная может быть другой), а с другой, приближает к таким методам поиска латентных переменных, как факторный анализ и многомерное шкалирование (там проблема интерпретации осей одна из центральных). Представляется, что это характеризует ЛСА как более адекватный подход, чем другие методы одномерного шкалирования. В процессе использования пос­ледних мы фактически не считаем ту переменную, значения кото­рой ищем, латентной - мы знаем, что это за переменная, не умеем только ее измерять "в лоб". А в случае ЛСА мы допускаем" неадекватность наших априорных представлений о сути (названии) латентной переменной. И это, на наш взгляд, ближе к тем реаль­ным ситуациям, с которыми обычно имеет дело социолог.

Приведем пример. Положительные ответы на первые три при­веденных выше вопроса могут отражать не любовь к будущей специальности, а послушание "пай-девочек" интеллигентных ро­дителей, имеющих схожую специальность. Положительные же ответы на последние три вопроса - напротив, - самостоятель­ность сознательно выбравших будущую специальность молодых интеллектуалов, отрицающих необходимость для них прослу­шивания каких-то устаревших курсов, умеющих быстро навер­стать пропущенные занятия, позволяющих себе иногда "рассла­биться". Ясно, что в такой ситуации полное распределение отве­тов на все вопросы в найденных латентных классах может по­мочь исследователю скорректировать наименование латентной переменной.

Упомянем еще об одной возможной трактовке получаемых в результате применения ЛСА частотных распределений для каж­дого латентного класса. Каждое такое распределение можно ин­терпретировать как отражение той "плюралистичное™" мнений одного респондента, о которой мы говорили при обсуждении шкал Терстоуна. Можно считать, что это то самое распределе­ние, которое отвечает одному респонденту, попавшему в соот­ветствующий латентный класс (правда, как мы увидим ниже, ЛСА дает возможность судить лишь о вероятности такого попа­дания).

б) Относительные объемы классов. В нашем случае - V и V2.
Эта информация, помимо прочего, тоже может способствовать
корректировке представлений исследователя о латентной пере-
менной. Заметим (и это пригодится при решении приведенных
ниже уравнений), что V + V2 = 1.

в) Вероятность Ρ (1/++-+-+) попадания объекта, давшего
набор ответов ++-I-Ь, в первый латентный класс и аналогичная
вероятность Ρ (2/++-+-+) - для второго латентного класса.

Это самое серьезное отличие ЛСА от других методов одно­мерного шкалирования. Представляется, что именно это отли­чие в наибольшей степени делает ЛСА более адекватным мето­дом, чем другие рассмотренные подходы к построению шкал. Способ измерения с помощью анкетных опросов по своей сути довольно "груб", в силу чего даже самые "благоприятные" отве­ты респондента не обязательно означают его включенность в соответствующий этим ответам латентный класс. Лазарсфельд действует более тонко: говорит только о вероятности такой вклю­ченности. Именно здесь проявляется в наибольшей степени же­лание Лазарсфельда следовать критериям, принятым в естествен­ных науках. Использование подобных вероятностных соотноше­ний в этих науках общепринято. Такой подход является есте­ственным и для самой математической статистики (социологу не мешает приглядываться к тому, что делают математики; иногда они вследствие профессиональной склонности к обобщениям предлагают более жизненные, хотя, может быть, и более слож­ные постановки задач, чем социолог).

7.6.2. Модельные предположения ЛСА

Вернемся к не раз упомянутой выше "кибернетической" схе­ме, отражающей процесс производного измерения. Наши вход и выход связаны соотношением:

Базы данных" href="/text/category/bazi_dannih/" rel="bookmark">базе данных величин (формирующих вход) получить искомые (выход), надо задать правила, выража­ющие вторые через первые (например, составить соответствую­щие уравнения). Каковы же соответствующие модельные пред­ставления? Сформулируем соотношения,"лежащие в основе ЛСА.

"Невооруженным" глазом видно, что количество неизвест­ных величин настолько превышает количество известных, что вряд ли в принципе возможно составление решаемых уравне­ний. Чтобы сократить количество неизвестных, вспомним акси­ому локальной независимости: фиксация значения латентной переменной приводит к исчезновению связи между наблюдае­мыми (это и означает, что латентная переменная объясняет свя­зи между наблюдаемыми).

Как мы уже говорили, независимость наших/-й и у"-й перемен­ных означает справедливость соотношения (7.2).

Ясно, что это равенство, вообще говоря, будет неверным, поскольку ответ на один вопрос (скажем, о том, имеет ли рес­пондент библиотеку) зависит от его ответа на другой вопрос (скажем, читает ли он по собственному желанию книги по буду­щей профессии). А вот для лиц, принадлежащих к одному латен­тному классу, в соответствии с аксиомой локальной независи­мости подобное соотношение будет справедливым:

Pj^P"p", P?=pfpf.

Нетрудно видеть, что использование этих соотношений по­зволяет резко сократить количество неизвестных: если мы най­дем р! и р.1, то величину pJ можно будет не искать, поскольку ее легко выразить через первые две вероятности (относительные ча­стоты). То же можно сказать и о других многомерных частотах.

Для того чтобы понять, каким образом можно составить тре­бующиеся уравнения, вспомним формулу полной вероятности:

расплывчатых" классификаций, что, од­нако, может быть не адекватно реальности. Этот недостаток по­крывается тем, что мы лишь указываем вероятность принадлеж­ности того или иного респондента к определенному классу, а не вычисляем точное значение латентной переменной для этого рес­пондента.

В системе (7.3) слева - известные величины, справа - неизве­стные. Ее можно решить. Мы не будем заниматься этим, отослав читателя к упомянутой в начале предыдущего параграфа литературе.

Осталось описать способ, с помощью которого рассчитыва­ются упомянутые вероятности. Этот способ опирается на так на­зываемую формулу Байеса: P(a/b) = (Р(а) Р(Ь/а))/Р (Ь). Здесь она превращается в

(Полагаем, что сказанное в настоящем параграфе лишний раз убедило читателя в том, что социологу необходимо знать эле­менты теории вероятностей).

В заключение обсудим, как же в случае ЛСА решаются сфор­мулированные нами в п. 7.3.3 проблемы построения индексов (искомая с помощью ЛСА латентная переменная тоже своеоб­разный индекс).

Первую проблему ЛСА не решает: существование латентной переменной в ЛСА постулируется. Правда, представление о ней может быть скорректировано за счет анализа полученных в про­цессе применения метода описаний каждого латентного класса (совокупности людей, имеющих одно и то же значение латент­ной переменной), т. е. вычисления вероятностных распределений ответов попавших в класс респондентов на все рассматриваемые вопросы.

Наши второй и третий вопросы снимаются следующим обра­зом. Точные значения латентной переменной для отдельных рес­пондентов не вычисляются. Вместо этого: а) дается описание каждого латентного класса и б) для каждого возможного набора ответов на вопросы анкеты вычисляется вероятность попадания давшего эти ответы респондента в любой из латентных классов.

Тип шкалы латентной переменной в ЛСА постулируется. В рас­смотренном простейшем варианте метода переменная была но­минальной. Как мы уже оговаривали, в более современных (но и гораздо более сложных) вариантах метода латентная переменная может быть получена по шкале любого типа, предусматривается также ее многомерность.

Глава 8. ПСИХОСЕМАНТИЧЕСКИЕ МЕТОДЫ В СОЦИОЛОГИИ

Мы уже говорили о том, что социолог, желающий адекватно оценивать мнение респондента, должен "дружить" с психологией. Надеемся, что читатель убедился в этом при рассмотрении в пре­дыдущем разделе некоторых аспектов использования в социоло­гии тестового подхода. Перейдем к изучению еще одного способа осуществления опроса, опирающегося на достижения психологии.

Прежде всего о том, что такое психосемантика. Как известно, семантика - это "раздел языкознания и логики, в котором ис­следуются проблемы, связанные со смыслом, значением и ин­терпретацией знаков и знаковых выражений". [Быстрое, 1991, с. 275]. Психосемантика же изучает психологическое восприятие человеком значений и смыслов разного рода объектов (в том числе понятий, а также знаков и знаковых выражений), про­цесса интерпретации им этих объектов. В нее входят разные на­правления, в определенной мере отличные друг от друга и по решаемым задачам, и по подходам к их решению. Наряду с ме­тодом семантического дифференциала (СД), подробно рассмат­риваемым в п. 8.3, сюда можно отнести метод репертуарных ре­шеток [Дубицкая, Ионцева, 1997; Тарарухина, Ионцева, 1997; Толстова, 1997; Франселла, Баннистер, 1986] и некоторые дру­гие подходы [Баранова, Ι; Петренко, 1983, 1988; Ка-чанов, Шматко, 1993; Шмелев, 1983]). Одна из основных задач психосемантики - построение так называемого семантического пространства, т. е. нахождение системы тех латентных факторов, в рамках которых респондент "работает", так или иначе оцени­вая какие-либо объекты. Необходимо подчеркнуть, что респон­дент, как правило, не дает себе отчета в существовании этих факторов. Семантическое пространство по существу является ис­следовательской моделью структуры индивидуального сознания, на основе которой происходит восприятие респондентом объек­тов, их классификация, сравнение и т. д.

Иногда психосемантические методы относят к проективной технике. "Особенность проективных процедур в том, что стиму­лирующая ситуация приобретает смысл не в силу ее объектив­ного содержания, но по причинам, связанным с субъективны­ми наклонностями и влечениями испытуемого, т. е. вследствие субъективированного, личностного значения, придаваемого ситуации испытуемым. Испытуемый как бы проецирует свои свойства в ситуацию" [Ядов, 1995, с. 190].

Наряду с методом СД к проективной технике относят и дру­гие процедуры: метод незаконченных предложений, изучение разного рода ассоциаций респондентов по поводу заданного сти­мула и т. д. [Соколова, 1980; Ольшанский, 1994, с. 111 - 112; Ядов, 1995, с. 190-193].

Как отмечается в [Ядов, 1995, с. 193], "обоснованность проектив­ных процедур определяется прежде всего теоретическими посыл­ками, руководствуясь которыми исследователь истолковывает дан­ные". Сделаем некоторые предварительные замечания соответству­ющего плана, касающиеся основного интересующего нас в дан­ной работе психосемантического метода, - СД.

Метод СД направлен не только на поиск семантического про­странства и анализ лежащих в его основе факторов, но и на изу­чение взаимного расположения объектов в этом пространстве (т. е. различий в восприятии объектов рассматриваемым респонден­том). Для социолога круг задач, решаемых с помощью СД, более широк - его интересы требуют нахождения усредненных показа­телей соответствующего рода; выделение типов людей, обладаю­щих сходным восприятием рассматриваемых объектов.

По существу мы здесь имеем дело с одним из частных случаев той глобальной задачи, о которой говорили в первом разделе-(п. 3.2): метод СД позволяет с помощью жесткого формализован­ного опроса получить более или менее адекватную информацию о довольно тонких психологических структурах восприятия чело­веком окружающего мира. И снова для того, чтобы в нашем "бо­лее или менее" было больше "более", чем "менее", требуется тща­тельное отслеживание той модели, которая дает нам возможность соединить несоединимое. Это мы и намереваемся сделать ниже.

Основой той психологической теории, на которой базируется метод СД, служат понятия "значение" и "смысл". Этим поняти­ям, а также их различению уделяется огромное внимание в пси­хологической, психосемантической, психолингвистической ли­тературе [Дридзе, 1984; Леонтьев, 1974, 1983; Ольшанский, 1994;

Соколова, 1994]. Мы не будем их подробно рассматривать. Отме­тим только, что оба понятия отражают общественный опыт, ус­ваиваемый индивидом. Оба являются результатом определенной организации (классификации) сознанием человека того потока впечатлений, который последний получает от окружающего мира. Но первое отвечает коллективному опыту людей (так, ребенок присваивает готовые, исторически выработанные значения), а второе - опыту отдельного субъекта, это как бы внутренне мо­тивированное значение для субъекта. Первое в большей мере со­ответствует классификации когнитивного характера (логике ума), а второе - аффективного (логике чувств). Однако структуры и значений, и смыслов сложны. В частности, в обеих можно выде­лить и когнитивный, и аффективный компоненты. Нас в основ­ном будет интересовать эмоциональная сторона смыслов, при­писываемых респондентами тем или иным объектам.

8.2. Семантический дифференциал (СД) 8.2.1. Постановка задачи Осгудом

Метод СД был предложен группой американских психологов во главе с Ч. Осгудом в 1957 г. . На русском языке описание метода СД можно найти в [Осгуд, Суси, Танненбаум, 1972; Осипов, Андреев, 1977; Ядов, 1995]. Обзор лежащих в том же русле подходов можно найти в [Родионова, 1996].

С помощью применения соответствующей техники достигают­ся следующие цели: 1) раскрытие аффективных компонент смыс­лов, вкладываемых людьми в те или иные объекты (явления, по­нятия); 2) выявление тех факторов, которые определяют смыс­ловую значимость объектов для каждого человека; пространство, образуемое этими факторами, и является тем самым семантичес­ким пространством, в которое респондент как бы помещает объект, оценивая его каким-либо образом; 3) определение раз­личий в восприятии человеком разных объектов; собственно, воз­можность решать именно эту задачу и дало наименование рас­сматриваемому методу: речь идет о различии (дифференциале) объектов в семантическом пространстве; 4) выделение типов людей, имеющих сходную картину изучаемых смыслов, сходные психосемантические пространства; соответствующие усредненные смыслы интерпретируются как значения объектов для субкульту­ры, отождествляемой с рассматриваемым типом людей.

Предложив метод СД, его авторы предложили тем самым опе­рациональный способ "улавливания" столь тонкой материи, как эмоциональная сторона смысла, вкладываемого индивидом в рас­сматриваемые объекты. Как любой способ такого рода, он опи­рается на определенную модель, определенные теоретические представления исследователя о том, каким образом искомые, не поддающиеся непосредственному измерению психологические "флюиды" могут проявиться во внешнем поведении индивида. И как всегда, упомянутое внешнее поведение для нас проявля­ется в ответах этого индивида на определенные предложенные ему вопросы. Другими словами, здесь, как и выше, мы хотим получить невербальную информацию вербальными методами.

Сам Осгуд использовал терминологию, несколько отличную от описанной выше: вместо термина "личностный смысл" Осгуд пользовался достаточно близким понятием "коннотативное зна­чение", противопоставляя его денотативному. При этом он по­лагал, что денотативное отражает объективный аспект позна­ния, а коннотативное - субъективные, индивидуальные цен­ности. Коннотативные признаки метафоричны по своей приро­де. Они характеризуют восприятие субъекта, а не описывают объект оценки. И именно коннотативные признаки служат ос­новой той модели, которую мы коротко охарактеризовали выше. Поясним на примере смысл введенных определений.

Оценивая какого-либо человека, мы можем анализировать, является ли он умным или глупым, толстым или тонким и т. д. Это - денотативные признаки (человек действительно обладает соот­ветствующими качествами в буквальном их смысле; хотя наша оценка может быть субъективной: скажем, мы можем необъек­тивно оценить умственные способности человека). А можем вы­яснять, является ли тот же человек мягким или твердым, горя­чим или холодным и т. д. Ясно, что при этом мы не будем иметь в виду измерение жесткости по известной шкале твердости Мосса (у всех людей твердость в этом смысле одинакова), а измерение температуры - с помощью градусника (все имеют температуру 36,6). Значит, в этом случае мы имеем дело с коннотативными признаками. Метафора налицо.

Предложенный Осгудом подход опирался на изучение явле­ния синестезии (синестезиса) - мышления по аналогии, воз­никновения одних чувственных восприятий под воздействием других. Процесс синестезии знаком каждому человеку. Под вли­янием определенных наборов звуков (музыкального произведе­ния) у человека возникают определенные зрительные представ­ления, знакомый запах может внезапно вызвать из памяти зна­комую звуковую или зрительную картину и т. д.

Явление синестезии отражается в любом языке: мы говорим о горячем сердце, твердом характере и т. д. (правда, используя по­добные термины, надо быть осторожными: в разных культурах "коннотативная" интерпретация одного и того же признака мо­жет быть разной; так, у некоторых кавказских народностей тер­мин "железный" применительно к характеру человека означает его мягкость в противовес стальному, твердому характеру). Со­ответствующие психологические аспекты и были использованы Осгудом.

Расматриваемый подход предполагает, что смысл (точнее, его эмоциональный компонент), вкладываемый человеком в то или иное понятие, может обнаружиться, если этот человек укажет на положение рассматриваемого понятия в системе некоторых коннотативных признаков. Например, пытаясь выявить истин­ное ("смысловое", точнее эмоционально-смысловое) отноше­ние респондента к тому или иному политическому лидеру, можно спросить, каким ему представляется этот лидер: теплым или хо­лодным, пушистым или колючим и т. д. (при этом, конечно, не предполагается, что лидер может иметь температуру 48° или что у него могут расти иглы, как у ежа). Множество коннотативных признаков рассматривается как система: только вся совокупность ответов респондента на все вопросы предлагаемой анкеты может говорить о смысле объекта для респондента, о положении этого объекта в соответствующем семантическом пространстве. О раз­личии же объектов может говорить только вся совокупность раз­личий по отдельным координатам этого пространства.

Кроме того, Осгуд полагал, что, выделяя какой-либо объект из окружающего мира, определяя свое к нему отношение, каж­дый человек пользуется системой биполярных признаков. Отсюда - предложение строить систему коннотативных признаков в виде пар полярных терминов, каждый из которых отвечает одному концу соответствующего признаку психологического континуума, или, как мы будем говорить, одному полюсу признака.

Для того чтобы было более ясно, о чем идет речь, опишем подробнее технику СД.

8.2.2. Техника СД

Итак, исследователя интересует аффективная составляющая смыслов, придаваемых респондентами некоторым объектам. Со­ставляется множество пар терминов (Осгудом было придумано несколько сот таких пар), каждая из которых отвечает некото­рому коннотативному непрерывному признаку (термины из со­ответствующей пары отвечали его полюсам): горячий - холод­ный, хороший - плохой, грязный - чистый и т. д. Диапазон изменения каждого такого признака разделяется на 7 частей, тем самым признаку ставится в соответствие семизначная шкала.

Чтобы было ясно, чему должны отвечать градации нашей се­мизначной шкалы, заметим, что, скажем, паре"светлый - тем­ный" соответствуют примерно следующие выражения и шкаль­ные значения:

очень светлый 3 не очень темный -1
светлый 2 темный -2

не очень светлый 1" очень темный -3

ни светлый, ни темный О

Как мы увидим ниже, в анкете не обязательно осуществлять все подобные расшифровки пунктов шкалы, равно как не обяза­тельно использовать именно названные числа: можно брать числа от 1 до 7 и т. д. Более того, иногда можно изменить количество градаций: скажем, прибегнуть к пятибалльной шкале. Вопрос о количестве используемых градаций неотделим от вопроса о типе используемых шкал, который мы теперь хотим затронуть.

Часто о шкалах, задействованных в методе СД, по вполне понятным причинам говорят как о порядковых. Но та обработ­ка, которую предполагает техника СД, фактически рассчитана на интервальные шкалы (речь идет об использовании факторно­го анализа, применении "числовых" алгоритмов классифика­ции и т. д.). Выше (в пп. 5.2.3 и 7.5.1) мы уже говорили о том, что при достаточно большом количестве используемых градаций предположение об интервальное™ задействованных шкал мо­жет быть вполне допустимым. Этим и можно воспользоваться для оправдания указанного шага.

Опрос осуществляется следующим образом. Респондентам по очереди предъявляются для оценивания рассматриваемые объекты и предлагается соотнести интенсивность своего внутреннего ощущения по поводу того или иного объекта по очереди со всеми оценочными шкалами. Каждый объект должен быть оце­нен каждым респондентом по всем рассматриваемым шкалам.

Приведем пример соответствующего измерительного инстру­мента, предназначенного для решения одной из конкретных со­циологических задач методом СД (табл. 8.1). Речь идет об исследо­вании аффективной составляющей социальной идентичности лич­ности. В качестве объектов идентификации (в нашей терминоло­гии - оцениваемых объектов) выступали важные и близкие че­ловеку социальные общности и группы [Баранова, 1994, с. 208].

объект-признак" приведен в табл. 8.2.


Таким образом, полученная с помощью метода СД инфор­мация, будучи компактно размещенной в пространстве, обра­зует трехмерный параллелепипед, осям которого отвечают соот­ветственно респонденты, объекты, шкалы. Если мы опрашивали 500 человек, давали им для оценки 20 объектов и каждый из объектов просили оценить по 50 шкалам, то упомянутый парал­лелепипед будет иметь размерность 500x20x50.

Существует масса способов, которыми можно анализировать подобную информацию, и соответственно масса задач, которые при этом можно решить. В числе этих задач - те, о которых мы говорили выше. Прежде чем перейти к более подробному их рассмотрению, заметим следующее.

Большинство методов многомерного анализа рассчитаны на то, что исходные данные представлены в виде так называемой матри­цы "объект-признак". Это прямоугольная таблица, строки кото-

Матрица "объект-признак" двумерна. Методы, позволяющие на основе анализа такой матрицы выявлять скрытые в ней статис­тические закономерности, направлены на ее "сжатие". Так, фак­торный анализ сжимает матрицу по столбцам: мы выделяем "пуч­ки" связанных друг с другом признаков, усматривая за каждым из них действие одного латентного фактора, который можем выра­зить через наблюдаемые переменные (об этом мы говорили в п. 7.2). Методы классификации сжимают матрицу по строкам: мы объе­диняем схожие между собой объекты в кластеры, олицетворяя каждый такой кластер с неким типичным для него объектом и т. д.

У нас же совокупность исходных данных трехмерна. Для того чтобы можно было говорить о применении традиционных ме­тодов многомерного анализа, необходимо устранить третье из­мерение. Сделать это можно по-разному. Способ зависит от ре­шаемой задачи. Прежде всего рассмотрим, как анализировал описанные данные сам Осгуд.

8.2.3. Факторы восприятия, выделенные Осгудом

Прежде всего заметим, что мы можем рассмотреть данные, отвечающие одному респонденту. Они образуют матрицу имен­но нужного вида: ее строки отвечают оцениваемым объектам, столбцы - шкалам. Ясно, что найти глубинные факторы, опре­деляющие восприятие рассматриваемым индивидом изучаемых объектов, можно с помощью факторного анализа. Он даст нам возможность отыскать те скрытые пружины, которые объясня­ют связи между шкалами. Каждый фактор будет отвечать "пучку" коррелирующих друг с другом шкал.

Именно это было проделано Осгудом. Полученные выводы носили примечательный характер. Применяя факторный анализ к матрицам данных для разных респондентов, предлагая им для оценок разные объекты, используя разные шкалы (разные шка­лы были использованы и для более надежной проверки получа­емых статистических утверждений, и в силу разного понимания одних и тех же терминов людьми, принадлежащими к разным субкультурам, а Осгуд опрашивал весьма различных респонден­тов), Осгуд получал одни и те же факторы. Он назвал их оцен­кой (за этим фактором стояли такие шкалы, как "красивый-некрасивый", "хороший-плохой" и т. д.), силой ("сильный-слабый", "большой-маленький" и т. д.) и активностью ("ак­тивный-пассивный", "быстрый-медленный" и т. д.). Иногда выделялись и другие факторы. Но на первом месте всегда стояли оценка, сила и активность. Поскольку Осгудом было проанали­зировано огромное количество эмпирических данных, можно считать эмпирически обоснованным то положение, что назван­ные три фактора являются основой семантического простран­ства любого человека.

Вывод действительно примечателен: эмоциональное отноше­ние любого человека к любому объекту (точнее, аффективная составляющая смысла этого объекта для рассматриваемого инди­вида) определяется тремя компонентами такого отношения - оцен­кой, силой и активностью. Правда, здесь все же требуется отме­тить, что, поскольку этот результат доказан не теоретически, а только эмпирически, то, вообще говоря, в каждом конкретном случае он требует своего подтверждения. В некоторых работах вы­ражается сомнение в справедливости (точнее, во "всеохватнос-ти") вывода Осгуда (см., например, [Степнова, 1992]).

Избавиться от трехмерности нашего параллелепипеда мож­но не только путем рассмотрения одного респондента. Можно усреднить величины, полученные от разных людей, и далее описанным выше способом работать как бы с одним "усред­ненным" респондентом. Это делал Осгуд. Выводы остались теми же. Отметим, однако, что, вероятно, усреднение данных по достаточно большой и социально значимой совокупности рес­пондентов во многих случаях можно считать переходом от аф­фективной стороны смыслов к аффективной стороне значений рассматриваемых объектов.

Вторая задача, решенная Осгудом, - это разработка способа определения относительной ценности для рассматриваемого че­ловека разных объектов. Определить различие в восприятии на­шим респондентом каких-либо объектов можно, если рассмот­реть объекты как точки отвечающего этому респонденту семан­тического пространства (трехмерного, если используются толь­ко три описанных выше латентных фактора) и определить рас­стояния между ними.

Сделать это можно, если после проведения факторного анализа рассчитать для каждого оцениваемого объекта значения найденных факторов (п. 7.2.2). Близость между объектами обычно рассчитыва­ется традиционным образом - используется так называемое "евк­лидово расстояние". Поясним, как оно находится, на примере.

Предположим, что у нас есть три оцениваемых объекта, имею­щих значения рассматриваемых латентных факторов, указанные в приведенной ниже таблице. Попытаемся выяснить, какой из объек­тов (2 или 3) ближе по своей ценности к объекту 1 для рассматри­ваемого респондента (может быть, усредненного), см. табл. 8.3.


Таблица 8.3. Пример таблицы, задающей значения латентных факторов для трех оцениваемых респондентами объектов

Ясно, что Л (1,2) > R (1,3). Другими словами, для рассматри­ваемого респондента первый и второй объекты по своему смыс­лу более близки друг к другу, чем первый и третий.

Если мы имеем одно и то же семантическое пространство для нескольких респондентов, то, проведя оценочную процедуру для каждого из них, можно схожим образом определить сравнитель­ную значимость каких-либо объектов для разных индивидов. О всех типах задач, которые можно решать на базе данных, собран­ных с помощью метода СД, можно прочесть ниже (п. 8.2.4).

Если мы не хотим или не имеем возможности осуществить факторный анализ собранных данных, то можно решить задачи, подобные описанным, находя расположение объектов в семан­тическом пространстве по-другому. А именно, можно опереться на полученный Осгудом результат, состоящий в том, что латен­тные факторы - именно те, о которых шла речь выше. Предполо­жим, что мы четко определим, какие шкалы относятся, скажем, к фактору "сила". Допустим, это будут упомянутые выше шкалы "сильный-слабый" и "большой-маленький" (и только они). Пусть некий объект по первой шкале имеет координату 5, а по второй - координату 3. Будем считать, что координатой нашего объекта по фактору "сила" является соответствующее среднее арифметическое (5 + 3)/2 = 4. Это не будет точным значением нашего фактора (как было показано в п. 7.2.2, в линейном фак­торном анализе значение латентного фактора выражается как не­кая линейная комбинация наблюдаемых переменных, не обяза­тельно совпадающая с суммой последних). Но опыт показывает, что в ряде ситуаций такое приближение может быть достаточным.

Пусть имеется матрица данных . Если рассматривать строки данной матрицы какN векторовв пространствеn признаков, то естественно рассмотреть расстояние между двумя некоторыми векторами. Расстояния между всевозможными парами векторов дают матрицурасстояний типа объект - объект.

Напомним, что расстоянием между векторами в пространстве признаков называется некоторая положительная величина d , удовлетворяющая следующим трем аксиомам метрики:

Таким образом, матрица расстояний является симметричной с нулевой главной диагональю. Существуют различные метрики, но наиболее известной вообще и наиболее применяемой в обработке данных, в частности, является евклидова метрика

.

Часто используется линейная метрика вида

.

Применение линейной метрики оправдано, когда расстояние определяется как расстояние между домами в городе по кварталам, а не напрямик. Возможны и другие виды расстояний.

Часто рассматривается величина, обратная в некотором смысле расстоянию - близость. На практике часто используют функции близости вида

или ,

где определяет крутизну функции близости. Очевидно, что матрица близостей также является симметричной с единичной главной диагональю, так как.

Если рассмотреть признаки как n векторов вN -мерном пространстве объектов, то получим другое преобразование матрицы данных в матрицутипа признак - признак. Элементомтакой матрицы является значение расстояния или близости между признакамиX i иX j . Наиболее распространено представление в виде матрицы близостей между признаками, где под близостью понимается, например, корреляция соответствующих признаков.

Рис. 1.8. Диагонализация матрицы связей.

Легко заметить, что содержательные задачи на матрице данных интерпретируются на квадратных матрицахикак выделение блочно - диагональной структуры путем одновременной перегруппировки строк и столбцов. Тогда в каждом диагональном блоке группируются элементы, близкие в соответствующем пространстве и далекие от элементов других блоков. Такая задача группировки известна как задача диагонализации матрицы связей (рис. 1.8). Задача о диагонализации матрицы связей является наиболее общей для матриц связей произвольной природы. Особенно интересным является случай, когда матрица связей является корреляционной матрицей. Именно для этого случая разработаны и широко применяются на практике специальные алгоритмы, известные как алгоритмы экстремальной группировки признаков (параметров).

1.6. Измерение признаков

Мы рассмотрели представление данных в виде матрицы объект-признак. Зададимся вопросом от том, как была получена матрица данных. Очевидно, что данные были получены в ходе эксперимента. По экспериментом обычно понимают: анкетирование в социологии; измерение характеристик некоторого процесса в промышленности; измерения, проводимые на специальной установке в научном исследовании; выявление мнения экспертов по некоторой проблеме (экспертиза) и т.д.

Таким образом, данные получают в результате измерения некоторых свойств объектов. Для того, чтобы провести измерение, должны присутствовать собственно объекты с интересующими нас физическими свойствами и измерительное устройство. Заметим, что объекты обладают обычно самыми разными свойствами. В результате измерения фиксируются только некоторые свойства объекта и не учитываются многие другие. Следовательно, в матрице данных содержится заведомо неполная информация об объектах исследования.

Например, объекты могут оказаться эквивалентными по весу или длине, если значения таких характеристик присутствуют в матрице данных как значения соответствующих признаков. Те же объекты могут оказаться совершенно различными по цвету или форме. Но это различие никак не отразится на результатах обработки, если эти свойства не были представлены в матрице данных в виде значений соответствующих признаков.

Под измерительным устройством может пониматься не только некоторый прибор, но и человек, например, респондент, отвечающий на вопросы некоторой анкеты. Важно, чтобы измерительное устройство было способно изменить свое состояние в ответ на изменение состояния объекта. Очевидно, что измеряющая способность устройства зависит от того, насколько структурированы свойства объектов.

Простейшая структурированность свойств объектов позволяет судить о совпадении или различии состояний. Для представления такой довольно грубой структуры не обязательно использовать числа, так как словами можно легко обозначить факт простого совпадения состояний или их различия. Таким образом, язык можно использовать для выражения классификационных понятий, совокупность которых образует шкалу наименований или номинальную шкалу.

Во многих случаях структурированность свойств выражается естественным упорядочением различающихся состояний, например, по степени проявления некоторого свойства. В этих случаях язык можно использовать для формирования довольно грубой шкалы порядка. Например, различие может выражаться с помощью сравнительных понятий типа “горячий - теплый - холодный - ледяной”.

Очевидно, что очень важно точно описать структуру измеряемых свойств. Лингвистическое - с помощью языка - различение близких проявлений свойств и их упорядоченности часто слишком грубо, поэтому требуются более тонкие градации. Возможность более тонких измерений предоставляется при использовании действительных чисел вместо слов. Таким образом, признаки, значения которых измеряются в шкалах наименований или порядка, называются качественными. Признаки, значения которых измеряются в числовых, то есть количественных шкалах, называются количественными.

Свойства различных типов признаков и шкал изучаются в теории измерений, поэтому рассмотрим более подробно основные понятия теории измерений.



Рекомендуем почитать

Наверх