Conference publications

Abstracts

XVII conference

Using new clustering for learning information extraction patterns

Kotelnikov D.S.

Russia, 141070, Moscow, Korolev, Michyrina, 21

1 pp. (accepted)

Задача извлечения информации из текстов состоит в выделении из неструктурированной информации на естественном языке структурированной информации. Стандартными подзадачами данной задачи являются извлечение совокупности упоминаемых в тексте сущностей, отношений между этими сущностями, ситуаций, в которых участвовали эти сущности.

Существующие методы извлечения информации можно разделить на два принципиально различных класса: методы, основанные на знаниях, и методы машинного обучения. В методах, основанных на знаниях, шаблоны выделения событий задаются экспертами. Недостатком этого подхода является высокая трудоемкость создания системы и сложность её адаптации для извлечения новых событий. При применении методов машинного обучения используется коллекция документов, предварительно размеченная человеком. Создание такой коллекции обучения также является трудоемкой задачей.

В работе исследуются методы пополнения и обобщения шаблонов, извлекающих информацию из текста, за счет нахождения в новостном кластере (кластере похожих новостей) нескольких близких по содержанию предложений, в которых хотя бы в одном удалось обнаружить извлекаемое событие. Для оценки качества методов были проведены эксперименты по извлечению информации о фактах получения кредитов из новостных документов.

В качестве базового инструмента извлечения информации из текста использовалась программа RCO Fact Extractor, кластеризация новостных сообщений производится новостным кластеризатором НИВЦ МГУ.

view as PDF