Порталы:

Биология Война География Информатика Искусство История Культура Лингвистика Математика Медицина Охрана труда Политика Право Психология Религия Техника Физика Философия Экономика

Мы поможем в написании ваших работ!

СИСТЕМА KLEIO

Источнико-ориентированная система управления базами данных KLEIO по своей идеологии в первую очередь ориентирована на работу с неструктурированными текстами, например, источниками по средневековью. KLEIO проводит три основных принципа в подходе к историческому источнику: контекстной чувствительности (т.е. учета контекста), размытости (нечеткости) данных и многомерности связей элементов источника.

KLEIO использует в качестве базовой единицы понятие элемента или элементарной информации; элементы содержатся в структурах, которые являются весьма нерегулярными и часто могут быть описаны как иерархические. Например, изучая описи имущества, удобно каждый тип собственности рассматривать отдельно, как отдельный объект (сущность), имеющий отличный от других объектов набор атрибутов (например, "размер" и "расположение" в противоположность "количеству" и "цвету"). С другой стороны, все типы имущества обладают таким важнейшим атрибутом, как "стоимость", и для целей "стоимостного" анализа наверняка придется потратить много времени на соединение разных типов объектов в один тип.

KLEIO базируется на оригинальной модели данных, тесно связанной с понятием семантической сети:

• Каждый из объектов в базе данных (называемый группой) может включать произвольное подмножество всех элементов базы данных. Теоретически возможна база данных, состоящая из групп лишь одного типа, каждый из экземпляров которой состоит, однако, из полей, не встречающихся ни в одном из прочих экземпляров.

• Каждая группа может быть связана с произвольным числом других групп - как в той же базе данных, так и в других.

• Если группы двух различных типов включают элемент с данным именем, система автоматически осуществляет нечто вроде их "неявного соединения".

• Поскольку многие исторические источники имеют неявную иерархическую структуру, то иерархические отношения являются для системы наиболее важными и для них предусмотрено немало средств, переводящих иерархию в отношения более общего типа.

Между традиционными структурами данных и теми, что описаны выше, существует огромное различие. Например, в рамках реляционной модели процесс создания базы данных можно сравнить с заполнением некоторых предварительно разработанных форм. По существу, создание этих форм и их последующее заполнение есть не что иное, как создание некоего нового, не существовавшего до того источника. Поэтому, отбрасывая какой-либо элемент информации, не вошедший в реляционную структуру, историк должен иметь в виду, что это может исказить или разрушить какие-то связи, важные для понимания других частей источника. KLEIO в этом отношении является настолько гибкой системой, что ее можно адаптировать к специфике каждого конкретного источника.

Процесс создания базы данных в системе KLEIO выглядит примерно следующим образом: исследователь знакомится с источником, затем переводит в машиночитаемый вид небольшой его фрагмент, используя синтаксис, который понимает система, и создавая словарь (списки объектов и полей). Когда накапливается достаточный словарь, система сможет прочитать часть источника, которую перевел для нее человек. Важно, что описание структуры данных в KLEIO по существу никогда не завершается, т.к. можно включать дополнительные элементы непосредственно во время ввода данных без явного изменения описания базы.

Описанный подход к созданию базы данных можно назвать, по выражению М.Таллера, "переводом или редактированием источника для читателя-нечеловека". По существу, подход, используемый KLEIO, моделирует работу историка с источником в рамках традиционного метода при наличии проблем интерпретации отдельных фрагментов текста этого источника. При традиционном методе историк, работая с полным текстом источника, фиксирует все его особенности и собственные предположения о значении отдельных фрагментов источника. Именно такую модель KLEIO и пытается реализовать на компьютере: например, для всех упомянутых проблемных областей, т.е. для хронологии, денежных систем, систем мер и весов, сравнения имен, система содержит базовые алгоритмы оперирования с информацией такого рода, причем имеется возможность выбора специфических правил интерпретации значений, верных для каждого конкретного региона и периода времени.

В рамках описанной источнико-ориентированной методики существуют два различных подхода к переводу исторического источника в память компьютера. Первый из них обычно называют структурированным, он подразумевает, что исследователь присваивает в качестве значений отдельных полей в базе данных различные фрагменты данных из источника. В этом случае сохраняется семантика текста, но не синтаксис, так как в текст вносятся специальные метки. При втором подходе, который называется предиздательским, сохраняются и семантика источника, и его синтаксис. Это особенно важно, потому что позволяет совместить публикацию источника с подготовкой того же текста к компьютерной обработке (о чем уже упоминалось при сравнении источнико-ориентированной подготовки данных к анализу с подготовкой издания текста для читателя - не человека).

Идея подготовки электронного издания органична для источнико-ориентированного подхода, при котором структура базы данных неразрывно связана с полной транскрипцией исходного текста. Доступные и легко воспроизводимые факсимильные репродукции рукописных источников в электронных архивах могли бы в корне изменить понятие публикации. Традиционная форма издания рукописных источников подразумевает их воспроизведение в форме транскрипции, являющейся результатом научной интерпретации и сопровождаемой необязательным факсимильным воспроизведением и различного рода справочным аппаратом. Основным недостатком такого издания является его статичный характер, т.к. опубликованная интерпретация источника уже не может изменяться. "Электронная публикация" будет иметь динамический характер, причем с самого начала процесса исследования машиночитаемый текст источника можно предоставлять другим ученым.

Наконец, приведем исчерпывающее определение KLEIO, данное М.Таллером:

"В KLEIO работа с историческим источником осуществляется путем по возможности буквального переписывания различных фрагментов его, сопоставленных отдельным элементам базы данных. Все знания о значении переписанных фрагментов хранятся отдельно - в том слое системы, который специально посвящен управлению знаниями. Любой запрос пользователя, любая команда доступа к записанным данным источника интерпретируется в соответствии со знаниями об источнике, хранимыми в машине. Визуальная репродукция транскрибированного источника хранится в базе данных; фрагменты его могут воспроизводиться на подходящем устройстве вывода. После того как репродукция части источника выбрана и выдана на экран, она может быть модифицирована подсистемами, включающими весь спектр средств обработки изображений."

Таким образом, можно представить последовательность работы с источником, реализуемую KLEIO, в виде следующей схемы:

Пользователь

Программное обеспечение

База знаний

Транскрипция источника

Оцифрованное изображение источника.

KLEIO - система обработки данных исторических источников

(краткое изложение основных принципов).

KLEIO - это профессионально ориентированная система управления базами данных для исторических наук. KLEIO - центральный проект в рамках программы "Автоматизированное рабочее место историка".

Накопленный с 1978 г. опыт, позволил Институту истории общества Макса Планка (Геттинген, Германия) с 1986 г. развивать, исходя из потребностей исследовательской практики в рамках объединения проектов "Автоматизированное рабочее место историка", систему управления базами данных.

Профессиональная направленность системы заключается в:

- особом типе и гибкости структуры данных;

- особом типе и гибкости типов данных;

- специальном сервисе программного обеспечения.

Для того, чтобы применить компьютер в историческом исследовании, надо трансформировать исторический источник в машиночитаемую форму. При обработке данных в коммерческом программном обеспечении это, как правило, выглядит так:

... В году 1869 на Св.Татьяну преставился хозяин трактира на Пятницкой. Его все хорошо знали в Замоскворечье, покуда еще мальчиком торговал он тут пирожками, потом у дядьки своего ходил в приказчиках.

Он все пропил, и когда умер, у него не было ни копейки. Имя ему было Иван Ермолаев ...

date: 25.01.1869

place: Замоскворечье

profession: Хозяин

surname: Иван

name: Ермолаев

death: Алкоголь

Это в ряде случаев, безусловно, эффективно. Но исторические источники зачастую отражают такое положение вещей, что если вы хотите проникнуть в их суть, такая форма представления создает практические трудности. В системе KLEIO:

- поля могут иметь несколько равноправных записей (в нашем примере три профессии: хозяин, мальчик, приказчик);

- поля могут сильно отличаться по длине

- (в нашем примере причина смерти специально не упомянута, она является составной частью повествования).

Есть данные, которые с трудом можно занести в какое-либо из полей. В нашем примере: при чем здесь упомянутый трактир?

Перечисленным условиям удовлетворяет программное обеспечение KLEIO, в котором:

- длина полей может без ущерба для эффективности варьироваться в диапазоне от 1 до 2 000 000 символов;

- каждое поле может включать несколько записей; это значит, что поле - это вектор, в котором отдельные логически равноправные значения разделены точкой с запятой (;);

- каждое поле может включать "аспекты"; через управляющие символы "#" и "%" можно как бы ассоциативно объединять данные с основной информацией.

KLEIO позволяет проводить все преобразования на естественной длине текста источника без сокращений.

Он все пропил, и когда умер, у него не было ни копейки. Имя ему было Иван Ермолаев ...

date=25.1.1869#день Св.Татьяны/р1асе=Замоскворечье/ ргоfеssion=хозяин#трактир на Пятницкой;

приказчик/ surname=Иван/name=Ермолаев/death=Он все пропил, и когда умер, у него не было ни копейки.

Введем термин: эквивалент "поля" в обычной системе управления базами данных называется в KLEIO элементарной информацией. Элементарная информация имеет следующие отличительные черты:

1. Длину полей можно не устанавливать - она не ограниченна.

ргоfеssion=ученый

- это такой же вид элементарной информации, как:

profession=B 1901 году поступил в Варшавский университет, где изучал историю и филологию. Закончил образование в Петербургском университете. Еще до Октября стихийно подошел к марксистскому пониманию исторического процесса

2. Поля могут - без дополнительных мероприятий - содержать большое количество логически равноправных записей, которые разделяются точкой с запятой.

professio=студент

- это такое же содержание элементарной информации, как: profession=доцент; научный сотрудник; профессор

3. Поля могут - без дополнительных мероприятий - иметь до двух "аспектов", в которые можно заносить любую информацию, дополняющую основную. В общепринятой терминологии "аспект" можно представить как "примечание" к определенному полю. Длина аспектов также не ограниченна.

profession=пекарь

- это такое же содержание элементарной информации как:

profession= пекарь% оригинал: лекарь??? #Внимание! Перед статистической обработкой проверить!!!

4. Число различных типов элементарных информаций в базе данных практически не ограниченно. На персональном компьютере можно объединить в базе около 32 000 различных типов элементарной информации.

5. Новый тип элементарной информации можно легко добавить в базу во время ввода данных: tоwn=Новгород

Такая конструкция приводит к дополнительному вводу элементарной информации town, даже если это не было предусмотрено в первоначальной структуре.

KLEIO не только позволяет точно ввести все части текста, но и старается понять" текст так же, как он расположен в источнике.

... Во Франкфурте купили ткани на сумму 182 рейнских гульдена

l82 г_p

Конечно, "Во Франкфурте купили ткани на сумму 182 рейнских гульдена" не такой текст как "182 г_р". Но здесь сохраняется не только соотношение между структурными частями текста, но также и значение денежной единицы (рейнский гульден отличается, например, от старого и нового венгерского гульдена).

Означает ли это, что KLEIO знает переводные курсы всех денежных единиц, известных в истории?

Вовсе нет. KLEIO знает в этом и подобных случаях общие синтаксические условия, значения которых пользователь должен ввести сам. Система узнает около сорока различных форм представления чисел. В данном случае используется форма:

<Число> <Квалификатор> <Связующий оператор> <Квалификатор_2>

Установить, какие операторы допустимы, сколько символов будет использоваться в качестве связующего оператора и что означает оператор в количественном отношении, должен сам пользователь.

На практике для этого используются следующие команды KLEIO (сначала KLEIO понимала только латинские команды, теперь она понимает и латинские, и английские):

ternimus nomen=sum;modus=numerus:numerus=currency

Эти команды устанавливают вид цифровых полей, чтобы преобразовать содержащиеся в них данные в десятичные числа. Они интерпретируются следующим образом:

Вначале договоримся, что будем понимать под именем "currency" и как трактовать числа.	item nomen=currency; usus=numerus
Установим значения специальных символов.	signa plures=_
Установим значения сокращений.	lingua nomen="r';numerus=240
Эти значения определяются числами.	lingua nomen="p";numerus-1.25; plures=sic
	exitus nomen=currency

Важнее, конечно, чем синтаксические детали, лежащая в основе концепция. Ее суть в том, что KLEIO позволяет самому пользователю не только определить тип данных, а исходит из того, что каждый историк о своем источнике, из которого он формирует базу данных, имеет целый ряд рабочих гипотез, которые концептуально отличаются от данных в базе, но без которых данные обработать нельзя. Гипотезы представляют собой так называемую логическую среду базы данных.

Рассмотрим более подробно представление о работе историка: он прикладывает много усилий к тому, чтобы проникнуть в суть источника и черпает все свои знания из источников. В отличии от физика или математика он не может планировать никаких экспериментов и изменить свои источники. Историк получает цепь выводов только из данных источников, которые не могут изменяться.

Поэтому свои размышления об источнике историк обычно хранит в картотеке отдельно от данных. Картотеку он регулярно пополняет и редактирует, если ему удается проникнуть глубже в содержание источника и расширить свои знания о нем.

Этой основополагающей логике непозволительно меняться и тогда, когда источник хранится не только в книге, но и в базе данных. Поэтому KLEIO не пытается самостоятельно передавать запрос пользователя прямо в базу.

В качестве первого шага KLEIO всегда консультирует рабочие гипотезы историка о данных и проводит интерпретацию запроса пользователя по соответствующим правилам.

Рассмотрим, как этот принцип реализуется на практике. Одна из сложностей при обработке массовых источников, с которой тотчас же сталкивается начинающий, существенные расхождения при написании имен.

KLEIO в состоянии найти имя даже тогда, когда оно лишь "похоже" на искомое.

KLEIO: quaero nоmеn=жители;

KLEIO:pars nomen=repertorium[фaмилии,algorithmus,"Kaзaнникoв"]; KLEIO: scribe pars=totum[]; KLEIO: KLEIO:

Выполнение поставленной Вами задачи началось е(7="п1-7) sex м

date 27.7.1899 id п1-7

surname Казанков name Михаил

е(8="п1-8) sex м

date 13.1.1905 id п1-7

surname Косенков name Игорь

Что происходит в этом случае? Следуя принципу, что источник всегда прав, имя сначала заносится в компьютер в том виде, как оно сохранилось в источнике. Казанников Казанков Косенков.

Одновременно с вводом данных историк имеет обработанный и осмысленный материал об особенностях источника, он уже кое-что понял об основных закономерностях написания имен и сделал важные пометки в своей картотеке.

3 = С

Аналогичным образом, вы вводите в базу данных, управляемую KLEIO, точное написание оригинала. После этого вы устанавливаете свои предположения о частных орфографических правилах через соответствующие команды или - в терминологии системы - вводите логический объект, который сравнивает варианты написания имен в логической среде банка данных и как бы "сглаживает" расхождения.

Установим правила сглаживания расхождений	item nomen=kodierung;usus=soundex
Игнорируем все гласные	conversio sine="аеёиоуыэюя"pars signa="3C"
"з" и "с" сглаживаются	pars signa="H"
"н " и "нн " уравниваются	pars signa="K"
"к" остается неизменной	pars signa="в"
"в" остается неизменной	exitus nomen=kodierung
Заканчиваем устанавливать правила.

KLEIO сама отслеживает большое число нюансов, которые существенно влияют на содержание базы данных.

Следует также дополнительно подчеркнуть возможность изменять наши предположения об орфографии. Мы можем свободно изменять и логическую среду нашей базы данных, данные при этом будут оставаться неизменными.

Этот алгоритм будет давать хорошие результаты в зависимости от того, насколько корректно вы установили предположения. Так, например, можно работать с несколькими группами предположений - одна будет включать закономерности возникновения ошибок при написании на слух, другая - при переписывании из одного документа в другой. Или, например, одна группа предположений может включать правила сглаживания расхождений при написании немецких фамилий в русских источниках, другая - работать с парой польский-русский, третья - чешский-русский и т.д.

Это очень мощный принцип - обрабатывать данные через комплекс рабочих предположений. Посмотрите на следующий пример - как происходит поиск в полном тексте источника неправильных латинских глаголов. После того, как был сформирован запрос о том, что нас интересует латинский глагол "aufero" и его контекст в источнике, KLEIO дает следующие результаты:

Document (116="UHSI*116*130)

Decernimus ergo, ut nulli omnino hominum liceat

monasterium temere pertubare aut eius possessiones

*** auferre *** uel ablatas retinere, minuere uel

temerariis ilexationibus fatigare

Document (116="UHSI*116*130)

Decernimus ergo, ut nulli omnino hominum liceat

monasterium temere pertubare aut eius possessiones

auferre uel *** ablatas *** retinere, minuere uel

temerariis uexationibus fatigare

Document (119="UHSI*119*134)

Que iugera *** abstulit *** inde index civitatis cum

voluntate et concessione Romani episcopi.

Система ищет не одну форму глагола, а выдает все формы, которые встречаются в тексте.

В то время, как историк сам должен ломать голову по поводу фамилий и орфографии, в KLEIO в его распоряжение предоставляется готовая система лемматизации.

Другими словами, KLEIO даже не ждет, чтобы каждый пользователь различал правила латинской грамматики; он только должен установить их через интерфейс.

Тут может возникнуть вопрос: наш пример с именами исходит из работы с сильно структурированными данными, тогда как пример с лемматизацией латыни рассчитан на обработку полного текста. Что же такое все-таки KLEIO? И в какой модели это реализуется?

В принципе KLEIO - система управления структурированными, формализованными данными; однако благодаря неограниченной длине полей можно расширить область применения KLEIO до баз данных, содержащих полные тексты.

KLEIO не следует традиционным моделям данных, в особенности реляционным. Она использует особую модель, которая исходит из идеи семантической сети.

Конечно, в KLEIO тоже устанавливаются поля, которые, как мы помним, называются элементарными информациями. Объединяясь в объекты, они составляют информационную группу. Между информационными группами устанавливаются связи. Так, следующая информационная группа "person" состоит из четырех элементарных информаций (фамилия, имя, профессия, дата рождения):

рсгsоп$Иванов/Иван/кузнец/13.1.1966

Между информационными группами могут быть установлены, например, иерархические отношения. В самом деле, подобные структуры очень часто встречаются в исторических источниках. Какие же ограничения устанавливает KLEIO для отдельного понятия?

Максимальное число объектов типа "дом" около 250 000

Максимальное число квартир/дом около 250 000

Максимальное число семей/ квартира около 250 000

Максимальное число типов объектов, которые
могут зависеть от предыдущего около 250 000

Максимальное число иерархических уровней около 250 000

KLEIO сама переводит иерархические структуры в сеть, устанавливая связи между отдельными объектами и между отдельными полями. Так из исходных данных возникает, в сильно упрощенном виде, следующая структура:

<== предыдущая страница	\|	следующая страница ==>
СПЕЦИАЛИЗИРОВАННОЕ ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ	\|	Дом, Квартира, Семья, Муж-Жена-Ребенок

Дата добавления: 2014-12-09; просмотров: 608; Нарушение авторских прав

Мы поможем в написании ваших работ!

lektsiopedia.org - Лекциопедия - 2013 год. | Страница сгенерирована за: 0.005 сек.