
AI-UniBot: эффективный поиск без языковых барьеров
Мы усовершенствовали ядро интеллектуального поиска Персонального ассистента & Корпоративного чат-бота AI-UniBot, запустив мультиязычный семантический индекс на базе Искусственного Интеллекта (AI)! Эта технология решает ключевую проблему корпоративного управления знаниями: высокую стоимость и длительность индексации документов в многоязычной среде. При этом точность поиска остается максимально высокой.
Ранее все документы переводились на английский для единого индекса, что требовало значительных вычислительных ресурсов. Теперь Администраторы выбирают один основной язык и до трех фундаментальных (дополнительных) языков, для которых индексация осуществляется без перевода. Остальные же языки автоматически переводятся только на основной. В результате объем операций сокращается на 70%–99%. При этом в процессе поиска система анализирует контекст одновременно на всех фундаментальных языках, обеспечивая максимальную релевантность независимо от языка оригинала или запроса.
Мы отработали следующий ключевой кейс: до определенного времени Международный Холдинг использовал русский как рабочий язык. Позже было решено полностью перейти на украинский и одновременно выйти на англоязычные рынки. В этой ситуации мультиязычный индекс стал крайне важным инструментом.
Администратор выбрал украинский как основной язык, а английский и русский — как фундаментальные. Это устранило необходимость переводить русскоязычные архивные и украиноязычные новосозданные документы. В результате затраты на индексацию снизились на 75%, а время обновления базы знаний сократилось с 12 часов до трех. При этом Сотрудники получают точные ответы на запросы на украинском или английском языке, даже если документ был создан на другом языке.
Техническая реализация такова: при настройке Администратор AI-UniBot указывает основной язык (например, украинский) и фундаментальные языки (например, английский, польский).
Система анализирует каждый документ при загрузке. Если язык файла совпадает с одним из фундаментальных, бот индексирует оригинал. В противном случае переводит только на основной язык.
Таким образом, как только Пользователь отправляет поисковой запрос, AI-UniBot определяет его язык и осуществляет поиск по всем фундаментальным индексам одновременно с помощью кросс-лингвистических векторных представлений и перевода ключевых слов. Затем бот ранжирует результаты, учитывая семантическую близость к запросу независимо от языка оригинала. Ограничение одним-тремя языками обеспечивает баланс между скоростью и качеством.
Короче говоря, мультиязычный семантический индекс в Персональном ассистенте & Корпоративном чат-боте AI-UniBot радикально снижает стоимость и сокращает время обработки многоязычных данных. Точность поиска остается высокой. И это позволяет Компаниям в единой интеллектуальной системе эффективно работать как с архивами историй, так и с современными документами и международными источниками.