Выделение именованных сущностей
Named Entity Recognition (NER)
Мы предлагаем быстрый и эффективный NER-модуль выделения именованных сущностей, который используется
в большинстве наших разработок. На базе NER-модуля реализованы специализированные модули
анализа происшествий, нормативно-правовых актов и заголовков статей.
Основные характеристики модуля:
- Типы именованных сущностей (объектов):
- Персоны и их атрибуты (должности, профессии и т.п.);
- Организации и подразделения;
- Географические объекты и адреса;
- Транспортные объекты;
- Ссылки на нормативно-правовые акты и их части;
- Даты, телефоны, e-mail, url и пр.;
- Основан на правилах.
- Сборки для .NET и классы Java
- Выделяются некоторые взаимосвязи объектов.
- Примерная скорость: около 50Kб текста в секунду на компьютере средней мощности.
- Язык: русский и украинский.
-
Приоритет качества перед полнотой.
- Возможно подключение внешних словарей (онтологий) для поиска их элементов в текстах.
- Имеется инструмент для реализации хранилищ объектов.
- В соревновании FactRuEval на конференции Диалог-2016 наш движок занял первое место на дорожках T1, T2, T2-m и второе место на T1-l
(подробнее).
Документацию можно посмотреть
здесь.
Попробуйте сами: задайте любой текст и нажмите