|
Conference publicationsAbstractsXVII conferenceUsing new clustering for learning information extraction patternsRussia, 141070, Moscow, Korolev, Michyrina, 21 1 pp. (accepted)Задача извлечения информации из текстов состоит в выделении из неструктурированной информации на естественном языке структурированной информации. Стандартными подзадачами данной задачи являются извлечение совокупности упоминаемых в тексте сущностей, отношений между этими сущностями, ситуаций, в которых участвовали эти сущности. Существующие методы извлечения информации можно разделить на два принципиально различных класса: методы, основанные на знаниях, и методы машинного обучения. В методах, основанных на знаниях, шаблоны выделения событий задаются экспертами. Недостатком этого подхода является высокая трудоемкость создания системы и сложность её адаптации для извлечения новых событий. При применении методов машинного обучения используется коллекция документов, предварительно размеченная человеком. Создание такой коллекции обучения также является трудоемкой задачей. В работе исследуются методы пополнения и обобщения шаблонов, извлекающих информацию из текста, за счет нахождения в новостном кластере (кластере похожих новостей) нескольких близких по содержанию предложений, в которых хотя бы в одном удалось обнаружить извлекаемое событие. Для оценки качества методов были проведены эксперименты по извлечению информации о фактах получения кредитов из новостных документов. В качестве базового инструмента извлечения информации из текста использовалась программа RCO Fact Extractor, кластеризация новостных сообщений производится новостным кластеризатором НИВЦ МГУ. |