Conference publications

Abstracts

XVII conference

Novelty Detection

Alekseev A.A.

Russia, 119991, Moscow, st. Leninskie gory 1, p. 52, 2-nd educational building.

1 pp. (accepted)

Растущие информационные потоки делают невозможным ручные анализ и извлечение необходимой информации из информационных источников. Одной из важных задач при автоматической обработке потока новостей является задача автоматического распознавания новой информации, то есть той информации, которая еще не поступала до текущего момента [1, 2].

В данной работе предложено два различных подхода к задаче определения новизны информации в новостном кластере.

Первый подход основан на представлении предложений в виде вектора идентификаторов в векторно-пространственной модели и последующем их сравнении по косинусовой мере угла между векторами. Каждое пространство соответствует отдельному терму, входящему в данное предложение, а значение идентификатора определяется лексическими характеристиками самого терма.

Второй подход заключается в анализе частотных характеристик слов в новостных коллекциях, их весов и значимости, и дальнейшем ранжировании предложений исследуемых новостных кластеров в соответствии с полученными характеристиками, так что вес (новизна) предложения определяется как сумма найденных характеристик новых слов, входящих в это предложение.

Для оценки качества предложенных методов была сделана ручная разметка предложений реальных новостных кластеров на предмет содержания новой информации. Были установлены веса и пороги, при которых данные методы достигают наилучших результатов с точки зрения человека. Получены сравнительные характеристики двух методов, установлены преимущества и недостатки каждого метода. Приведены описание экспериментальной программы, тестовых данных, формулы, лежащие в основе методов, и анализ полученных результатов.

view as PDF