ПРОГРАММА QualiDatE

Анализ качественных (номинальных) данных - весьма распространенная задача, возникающая в исторических исследованиях. Представление информации качественными признаками носит в исторических источниках достаточно универсальный характер. Подавляющее большинство информации, изучаемой историками, относится к неколичественной, поскольку извлекается из текстовых документов, быть может, достаточно структурированных, но представляющих информацию средствами человеческого языка.

Для неколичественных данных в рамках традиционной статистики был разработан ряд методов, в целом воспроизводящих логику работы с числовой информацией. Во многих случаях они оказываются полезными и вполне достаточными. Однако, неколичественные данные, в силу своего естественно-языкового происхождения, обладают рядом свойств, не укладывающихся в рамки стандартных статистических подходов, и требуют специальных средств обработки. Основным таким свойством является то, что значения неколичественных признаков в принципе нечетки и могут иметь смысловые пересечения. В особенности это касается оценочных характеристик, таких, например, как "молодой", "грамотный" и т.п., которые с той или иной долей вероятности могут обозначать разные возраст и уровень образования соответственно. Однако это относится и к характеристикам, производящим впечатление вполне конкретных. Например, если мы встречаем в источнике упоминание о том, что некоторое лицо является рабочим, то мы знаем, что в действительности за этим могут стоять весьма несхожие социальные параметры, определяемые различием в квалификации, сфере занятости и др. А это означает, что два лица, описанных в источнике формально одинаковым набором характеристик (например, "молодой грамотный рабочий"), вовсе не обязательно обладают идентичными значениями социальных переменных, подразумеваемых в этом описании.

С другой стороны, значения, выражаемые разными словами, могут находиться в разных соотношениях друг с другом - от полного совпадения смысла (в случае синонимов) до абсолютной несопоставимости. Так, если мы имеем в виду социальную стратификацию, то "рабочий-железнодорожник " и "уборщица в банке" - это довольно близкие значения, в то время как "председатель правления банка" далеко отстоит от них обоих. Если же нас интересует сфера занятости (отрасль), то мы, естественно, видим близость двух последних значений. Поэтому при анализе качественных данных исторических источников большое значение имеет методика их интерпретации и предварительной обработки, включающей такие операции, как обобщение и установление смысловых связей между отдельными значениями.

Аналогичным образом следует подходить и к представлению результатов анализа, особенно в задачах многомерной классификации. Здесь особенную важность приобретает возможность получать нечеткие группировки объектов и признаков (которые, как было показано в предыдущем разделе, оказываются полезными и в приложении к числовым данным).

Еще одним характерным свойством неколичественной информации, извлекаемой из исторических источников, является нерегулярность структуры. Очень часто об одних объектах, например, людях, сообщается большое количество достаточно детальных сведений, в то время как другие могут описываться поверхностно и односторонне. Так, в списках кандидатов во Всероссийское Учредительное собрание - источнике, казалось бы, хорошо структурированном по определению, - для одних кандидатов указан только адрес, у других дается еще и возраст или род занятий, а для некоторых - все это вместе взятое, плюс название оконченных ими высших учебных заведений и ученая степень. Если приводить такие данные в регулярный табличный вид (как этого требует технология создания реляционных баз данных или методы статистического анализа), то получаемый набор данных может иметь столько пропусков, что достоверная обработка данных становится невозможной. Такие данные требуют иных способов представления, при которых не подразумевается наличия у каждого из объектов фиксированного набора полей (переменных), и специальных методов для их формального сравнения.

Наконец, следует отметить, что при анализе столь неоднородных данных относительно простые дескриптивные методы, реализованные в виде гибких программных средств, могут оказаться для исследователя более полезными, чем многоступенчатая обработка с помощью сложных статистических процедур.

Исходя из этих посылок была разработана компьютерная программа QualiDatE, имеющая основной целью реализацию интерактивных методов анализа неколичественных (качественных) данных - прежде всего дескриптивных, анализа совместной встречаемости и нечеткой классификации. QualiDatE - Qualitative Data Explorer - программа для исследования неколичественных данных. Программа является приложением для среды Windows. Она разработана Е.Беловой (лаборатория исторической информатики исторического факультета МГУ).

Модель данных и специфика интерфейса. Модель данных, поддерживаемая QualiDatE, внешне представляет собой частный случай той, что реализована в системе KLEIO, но без иерархических связей (т.е. допускаются многозначные поля, объединение объектов в группы). По существу же объекты описываются неструктурированным набором атрибутов (характеристик), которые могут быть произвольным образом объединены в группы-поля (Файл данных содержит список депутатов первой Государственной Думы и их характеристики. Поскольку файл создавался в СУБД dBASE, то характеристики разделены на поля (национальность, религия, уровень образования, источник дохода, происхождение, социальный статус, партийная принадлежность и др.). Однако, в общем случае, характеристики могут записываться просто через запятую.).

QualiDatE поддерживает симметрию данных (т.е. позволяет рассматривать объекты, в которых данный признак встречен, в качестве атрибутов этого признака), в результате этого все элементы данных являются равноправными. Аналогом полей здесь являются группы объектов. На содержательном уровне подобная симметрия объектов и признаков встречается нечасто. Для объектов, описанных количественными признаками, она вообще бессмысленна, но в случае качественных данных подобный формализм позволяет унифицировать все операции над данными. Такая "двойственность", поддерживаемая QualiDatE, дает возможность параллельной работы с одним и тем же набором данных, используя оба его представления.

Базовым представлением набора данных является окно, в котором каждая строка соответствует одному объекту, где за именем объекта следует набор описывающих его признаков. При этом могут указываться также и имена полей или только имена полей (последнее имеет смысл, когда объекты сильно различаются объемом и типом информации). Базовое представление можно транспонировать (перевернуть), получив сходный вид, где каждая строка соответствует одному признаку, описываемому именами объектов, в которых он встретился. В транспонированном наборе можно перейти к просмотру частот встречаемости, метрик объектов и др. Например, классификация исходного набора немедленно отражается на "перевернутом" - в нем появляются отсутствовавшие ранее группы характеристик.

И наоборот, классификация последнего изменяет исходные группы характеристик депутатов (В результате классификации списка депутатов в "перевернутом" наборе данных появились группы характеристик - фамилий депутатов. Здесь можно сразу видеть, какие характеристики депутатов принадлежат только членам партии трудовиков, какие только членам партии кадетов, а какие - и тем и другим. В результате классификации "перевернутого" файла набор групп характеристик исходного файла изменился появились группы характеристик в соответствии со степенью совместной встречаемости. Так, в группу с условным названием высшее образование (группу характеристик, часто встречаемых с характеристикой "высшее образование") вошли: источник дохода жалование, происхождение - дворянин. Теперь депутаты могут быть описаны не только в терминах исходных переменных, но и более компактно - обозначениями групп).

QualiDatE позволяет реализовать сколько угодно схем классификации и получать распределения объектов и характеристик в каждом из построенных классов.

Формальный аппарат и функциональные возможности. В основе формального аппарата QualiDatE лежит несколько мер, на основании которых можно производить различные типы классификации объектов. QualiDatE позволяет присваивать веса признакам, например, для того, чтобы исследователь мог зафиксировать сравнительную значимость или достоверность тех или иных характеристик. Если характеристикам присвоены веса, то они учитываются при вычислении мер.

QualiDatE предлагает целый ряд операций над значениями. Наиболее важными представляются следующие: объединение нескольких значений в одно и расщепление, т.е. замена значения на некоторое иное в зависимости от его совместной встречаемости с другими значениями, что в какой-то мере позволяет учитывать контекстную зависимость данных. Объединение признаков имеет смысл в том случае, если все они характерны для одной группы объектов. Тогда оно ведет к увеличению однородности этой группы. В противном случае, это действие, по меньшей мере, не улучшит качества классификации. Расщепление особенно важно, когда в данных есть пропуски. Тогда на основе высокой совместной встречаемости в вышеупомянутом наборе данных таких, например, характеристик, как "юридическое образование" и "принадлежность к партии кадетов", можно с большой долей вероятности предположить, что депутат имел дворянское происхождение. Параллельно с этим объекты данных могут и должны подвергаться группировке. Обе задачи могут быть выполнены пользователем вручную, на основании исключительно содержательных соображений, или же с использованием формальных критериев. А именно, пользователь может указать объекты, которые, по его мнению, являются наиболее характерными (эталонными), и "попросить" программу найти группы объектов, сходных с эталонами, т.е. провести классификацию "с обучением". QualiDatE реализует несколько процедур классификации, которые могут проводиться сразу в двух направлениях (по объектам и по признакам) и несколькими способами, а также позволяет строить различные виды набора данных, которые могут использоваться для исследования информации на чисто качественном уровне.

Результат классификации может учитывать порог принадлежности объектов к искомому классу, который варьируется в интервале от нуля до единицы. Например (Один из кандидатов задан в качестве эталона. Руководствуясь определенным правилом и исходя из набора характеристик, программа вычислила меру сходства между каждым объектом из исходного набора данных и эталоном. Теперь для выполнения собственно процедуры классификации можно указать порог сходства, ограничив тем самым искомый класс. Например, если указан порог сходства [0.5 - 1], то только отмеченные "галочкой" объекты попадут в искомый класс.), если мера, отражающая сходство некоторого объекта с эталоном, попадает в интервал [0.5 - 1], то он будет отнесен к классу, определяемому соответствующим эталоном, иначе он попадет в так называемый "джокерный класс" - группу объектов, которым не нашлось места ни в одном из искомых классов.

Вообще говоря, и сами эталоны могут быть найдены с использованием формальной процедуры. Следует отметить, что близости к эталонам можно рассматривать как веса принадлежностей объектов к нечеткому множеству, центром которого служит эталон. В таком случае соответствующий режим просмотра уже представляет собой нечеткую классификацию набора данных (Которая, однако, не обладает свойствами классификации, порождаемой алгоритмами типа Fuzzy ISODATA).

Сама процедура классификации имеет два основных варианта - покрытие и разбиение, а также допускает их комбинацию - разбиение при фиксированном пороге сходства с эталоном. Жесткое разбиение всех объектов набора данных на классы, заданные эталонами. При этом варианте классификации для каждого объекта находится эталон, мера сходства с которым максимальна. В результате все объекты "находят" свой класс. Разбиение при фиксированном пороге. При этом те объекты, которые не проходят за данный порог, относятся к "джокерному" классу. Покрытие - то же, но с тем отличием, что часть объектов может быть отнесена одновременно к нескольким классам.

В некоторых случаях результатом работы QualiDatE можно считать прямоугольную таблицу данных, строки которой - это группы объектов, а колонки содержат частоты встречаемости в них исходных и/или производных признаков. Эту таблицу можно импортировать, например, в такой мощный программный пакет, как Microsoft Excel, и применить все имеющиеся там средства обработки данных, как статистические, так и графические. В терминах же QualiDatE - это "отчет" (точнее один из видов отчетов), отражающий преобразования исходного набора данных. Результат любой операции может фиксироваться путем создания самостоятельного набора данных (После классификации из исходного набора данных были выделены группы "типичных" кадетов и трудовиков. Каждая из них представлена как самостоятельный набор, для которого доступны все те же процедуры и функции, что и для исходного).

При этом программа регистрирует "генеалогию" всех таких наборов, а также любых производных признаков и объектов, появляющихся в результате работы. Используя этот протокол, можно вернуться на произвольное количество шагов назад, тем самым отказываясь от действий, которые оказались неудачными.

Такая схема вполне соответствует природе процесса исторического исследования, поскольку этот процесс итеративен и требует постоянной модификации предположений и гипотез, включая те, которыми определялся отбор информации и способы ее преобразования в понятия и категории.

<== предыдущая страница	\|	следующая страница ==>
ПРОГРАММА FuzzyClass	\|	СИСТЕМА CensSys

Дата добавления: 2014-12-09; просмотров: 299; Нарушение авторских прав

Мы поможем в написании ваших работ!

lektsiopedia.org - Лекциопедия - 2013 год. | Страница сгенерирована за: 0.001 сек.