Duplicate Finder

Русский/English

Данный тул предназначен для поиска и анализа нечетких повторов в документации программного обеспечения. Два фрагмента текста являются нечеткими повторами, если они содержат общую информацию, выраженную синтаксически одинаково (то есть одним и тем же текстом), и имеют ряд отличий., и при этом одинаковой информации существенно больше, чем отличий.

Наш тул работает в двух режимах:

  1. он позволяет быстро, автоматически определить нечеткие повторы в предложенном документе;
  2. тул поддерживает интерактивный поиск, вовлекая человека.
Превый режим нужен для того, чтобы сделать экспресс-оценку наличия повторов в документе. Однако в автоматическом режиме не удаётся выявить семантически корректные повторы - часто объединяются бессмысленные, синтаксически-идентичные фразы, а значимые повторы извлечены не полностью. Имеются и другие проблемы. Однако общая картина «густоты» повторов в документе в этом режиме определяется достоверно. А дальше, для получения корректной информации и дальнейшего использования нечетких повторов в documentation reuse, предлагается интерактивный режим.

Исходный код тула можно взять здесь.