English
!

Архив публикаций

Тезисы

XIV-ая конференция

Описание синтаксического и морфологического разбора текста с использованием XML

Суровцова Татьяна Геннадьевна

Россия, 185031, г. Петрозаводск, пр. Ленина 33, Тел.: (8142)71-10-68, E-mail: tsurovceva@psu.karelia.ru

1  стр.

В Петрозаводском государственном университете ведется разработка информационной системы «Статистические методы анализа литературного текста» (ИС «СМАЛТ») [1, 2]. (Проект РГНФ № 02-04-12015в, № 05-04-12418в, рук. Рогов А.А., http://smalt.karelia.ru), которая в настоящее время содержит ряд литературных произведений (публицистические статьи из журналов «Время», «Эпоха», «Современник», «Гражданин» и др.), их морфологические и синтаксические параметры.

При разработке информационной системы возникла потребность в более гибкой работе с текстами, а также общем формате, который позволил бы проводить обмен с другими подобными коллекциями, а также переводить устаревшие форматы баз данных в новые. Было предложено разработать стандарт на основе языка XML, в котором были бы включены синтаксический и морфологический разборы для текстов на русском языке, выполненные в соответствии с русской грамматикой.

Разработка и описание стандарта выполнено на основе дерева синтаксического и морфологического разбора, в соответствии с которым в настоящее время проводятся разборы произведений в ИС «СМАЛТ».

Использование описания с использованием языка XML позволит более гибко работать со структурой текста, в частности выполнять пометку элементов, которые следуют с разрывом, указывать вложенность предложений друг в друга.

Созданную версию стандарта описания нельзя рассматривать как конечный продукт, а только материал для дальнейшей работы, направленной на совершенствование разборов, проводимой в тесном сотрудничестве со специалистами филологами.

Литература

1. Захаров В.Н., Леонтьев А.А., Рогов А.А., Сидоров Ю.В. Программная система поддержки атрибуции текстов статей Ф.М. Достоевского. Труды Петрозаводского государственного университета: Сер. Прикладная математика и информатика. Вып. 9. - Петрозаводск: Изд-во ПетрГУ, 2000. 180 стр.

2. Рогов А.А., Сидоров Ю.В., Король А.В. "СМАЛТ" - от построения корпуса текстов к способам их обработки статистическими и эвристическими методами. Региональная информатика-2004 "РИ-2004", материалы IX Санкт-Петербургской международной конференции, Санкт-Петербург, 22-24 июня 2004 г., стр. 243-244.

© 2004 Дизайн Лицея Информационных технологий №1533