СЕМАНТИК


Антиплагиат

Модуль Антиплагиата реализован в виде SDK, встраиваемого в другие системы. Сам модуль документы для индексирования не ищет, а довольствуется лишь тем, что подала ему на вход внешняя система.

Особенности модуля:

  • Базовые функции:
    • Проиндексировать документ. Сами документы в индексе не хранятся, а только компактная индексная информация, из которой невозможно восстановить текст документа. Понимаются форматы DOC, DOCX, RFT, PDF, HTML, TXT, при этом не требуется наличия на компьютере никакого специального программного обеспечения.
    • По заданному тексту (документу) искать документы с похожими фрагментами.
    • Для 2-х документов произвести сравнение текстов на предмет наличия похожих фрагментов (функция может использоваться внешней системой для визуального представления пользователю результатов поиска).
  • Алгоритм: в тексте выделяются смысловые последовательности (например, предложения), которые хешируются так, чтобы хеш-значение не зависело от перестановок слов, транслитеральных символьных замен (когда некоторые буквы кириллицы заменяются на латиницу), морфологических вариаций, пунктуаций и служебных слов, вариантов числовых написаний и т.д.
  • Из кеширования исключаются цитаты и фрагменты текстов, содержащих ссылки на внешние источники.
  • Индекс представляет собой набор файлов в указанной директории, количество документов в индексе неограничено.

Спецификацию модуля можно посмотреть здесь.

Библио-модуль

Online-демонстрацию поиска плагиата реализовать проблематично (некоторый online-вариант сравнения диссертаций можно посмотреть здесь). В этом разделе предложим демонстрацию модуля, который выделяет из текста документа формальные реквизиты: название, авторов и др. Библио-модуль может быть полезен для задачи антиплагиата, например, тем, что при поиске плагиата из результатов можно удалять документы с тем же автором, что и автор тестируемого документа.

Попробуйте сами: задайте текст документа и нажмите


 
 

Контактная информация

ООО Семантик
ул. Чечулина д.11 корп.2
г. Москва, Россия

E-mail: semantick@mail.ru
Тел.: +7 (495) 960-67-50