Главная страница Случайная лекция Мы поможем в написании ваших работ! Порталы: БиологияВойнаГеографияИнформатикаИскусствоИсторияКультураЛингвистикаМатематикаМедицинаОхрана трудаПолитикаПравоПсихологияРелигияТехникаФизикаФилософияЭкономика Мы поможем в написании ваших работ! |
Системы автоматического реферирования и аннотирования текстов
В условиях все возрастающего количества текстов в окружающем человека мире возникает проблема: как в этом море информации найти нужные документы и познакомиться с их содержанием? Решению данной проблемы может помочь составление рефератов и аннотаций полнотекстовых документов. Они дают читателю представление о содержании исходных документов и позволяют оценить степень необходимости обращения к полным текстам каждой работы. Кроме того, рефераты и аннотации акцентируют внимание читателя на новых сведениях, т.е. позволяют за небольшой промежуток времени узнать много новой информации. Рефераты и аннотации составляются вручную, например самим автором исходного текста или библиографическим работником, или автоматически, с помощью специальных компьютерных программ. Наиболее качественным является первый вид рефератов и аннотаций, поскольку в этом случае создается новый текст, называющий основную мысль высказывания и отличающийся связным характером. Но для обработки большого массива текстов за минимальное количество времени требуется привлечение автоматических средств для решения задачи реферирования и аннотирования текстов. Реферат определяется как связный текст, который кратко выражает - центральную тему, - предмет, - цель, - методы, - результаты исследования. Рефераты обычно составляют к научно-техническим документам: научным монографиям, статьям, патентам на изобретение и др. В зависимости от жанра исходного текста (монография, статья, патент и др.) и от предметной области (медицина, химия, лингвистика и т.д.) заданные элементы реферата могут различаться. Так, для научных рефератов дополнительно к названным выше элементам реферата прибавляется краткое изложение сути, практической апробации и перспектив исследования. Различают следующие виды рефератов: - связный текст – новое текстовое образование, порождаемое на основе логико-смыслового анализа исходного текста; - реферат-клише – модификация заданной клишированной структуры, пустые ячейки которой заполняются после анализа заданного текста; - квазиреферат – перечень наиболее информативных предложений текста. Очевидно, что для автоматического создания рефератов-связных текстов требуются более сложные компьютерные программы, чем для создания рефератов-клише и квазирефератов. Некоторые исследователи считают реферат и аннотацию синонимами, а некоторые предлагают разводить эти понятия, определяя аннотацию как краткое изложение содержания документа, дающее общее представление о его теме. Согласно этому определению, в отличие от реферата, знакомящего читателя с сутью излагаемого в документе содержания, аннотация выполняет лишь сигнальную функцию (есть публикация на определенную тему). В большинстве программ, направленных на автоматическое составление краткого содержания текста, можно задать разную степень компрессии текста, т.е. одна и та же программа создает как развернутые рефераты, так и краткие аннотации. В связи с этим, в отношении автоматического процесса составления краткого содержания текста обычно используется двойное обозначение: автоматическое реферирование и аннотирование текста. Создаваемые в процессе реферирования и аннотирования аннотации и рефераты представляют собой вторичные документы. Первичными (или исходными) документами являются сами книги, статьи, патенты и др. Программы автоматического аннотирования и реферирования ориентированы на то, как это делает человек. Для человека этот процесс включает следующие этапы: 1) подготовительный: определение темы текста, его понимание; 2) аналитический: деление текста на фрагменты (абзацы и т.п.) и выделение в каждом фрагменте главных смысловых слов, которые составляют план будущего реферата; 3) непосредственное составление реферата или аннотации: соединение выделенных смысловых единиц в связный текст. Главными смысловыми единицами исходного текста выступают ключевые слова, ключевые словосочетания и ключевые предложения. Ключевое слово – знаменательное слово, относящееся к основному содержанию текста и повторяющееся в нем несколько раз. Ключевое словосочетание – сочетание слов, среди которых есть одно или несколько ключевых. Ключевое предложение – предложение, которое содержит несколько (два и более) ключевых слов. По способам выделения из исходных текстов ключевых словосочетаний и предложений различаются следующие методы автоматического реферирования и аннотирования текстов: 1) статистические, 2) позиционные, 3) логико-семантические. При статистическом методе принадлежность слова к категории ключевых определяется его статистическими характеристиками: ключевое слово согласно этому методу встречается среди знаменательных слов текста наибольшее количество раз. Ключевое предложение, соответственно, содержит несколько ключевых слов, которые располагаются на небольшом расстоянии друг от друга. В позиционном методе принцип отнесения предложения к ключевым опирается на его местонахождение в тексте: ключевые предложения входят в заголовок, подзаголовок, находятся в начале и конце текста. Целью логико-семантического метода, при котором учитывается структура и семантика текста, является выделение предложений с наибольшим функциональным весом. Такими предложениями считаются те, которые содержат семантически значимые слова, особым образом связаны с другими предложениями, имеют определенный синтаксический тип предложения и т.п. Наиболее простыми системами автоматического реферирования и аннотирования является функция AutoSummarize в MS Word, системы Intelligent Text Miner, Oracle Context и Inxight Summarizer (компонент поискового механизма AltaVista) (IBM). Правда, возможности этих программ ограничены выбором оригинальных фрагментов из исходного документа и их соединением в короткий текст. Кроме того, можно привести примеры следующих систем автоматического реферирования и аннотирования текстов: - ОРФО 5.0 (компания «Информатик»): программа включает функцию автоматического аннотирования русских текстов; - «Либретто» (компания «МедиаЛингва»): программа встраивается в Word и обеспечивает автоматическое реферирование и аннотирование русских и английских текстов; - поисковая система «Следопыт», которая включает средства автоматического реферирования и аннотирования документов; - программы Extractor и TextAnalyst (компания «Медиасистемы»), которые выдают последовательности именных групп, выделенных с помощью синтаксических анализаторов. В целом можно констатировать, что автоматические рефераты и аннотации представляют собой, по сути, квазирефераты, т.е. результатом автоматической компрессии текста в большинстве случаев становится либо набор ключевых слов, либо перечень ключевых предложений, что, впрочем, в значительной степени помогает решить задачу аннотирования и реферирования большого объема текстов в малые сроки [Щипицина 2013].
Дата добавления: 2014-12-09; просмотров: 1221; Нарушение авторских прав Мы поможем в написании ваших работ! |