АІ-UniBot: идентификация и удаление дубликатов файлов

Быстрый доступ к информации и дешевое ее хранение – это лишь одна сторона цифрового прогресса. Наши Разработчики сосредоточились на другой: засор хранилищ ненужными дубликатами. Ведь хранение нескольких копий одного документа кажется менее затратным, чем поиск и удаление каждой из них вручную. Поскольку обычно процесс распознавания и очистки памяти от дубликатов требует ресурсов, которые тратить на это не хочется. По меньшей мере – нескольких часов рабочего времени Сотрудников, которые нужно было бы регулярно выделять на такую «большую уборку». И это побудило большинство Организаций просто игнорировать эту проблему. Так что практически у каждого из нас один документ существует в нескольких вариантах. Впрочем, так было, пока мы не поручили «уборку» Персональному ассистенту & Корпоративному чат-боту UniBot.

Как ни странно, но с применением Искусственного Интеллекта (АI) для поиска файлов или предоставления ответов на вопросы ситуация лишь ухудшается. Ведь дубликаты документов становятся серьезным препятствием, влияющим на эффективность системы. Они не только увеличивают время и финансовые затраты на индексацию, но и снижают точность и релевантность ответов от АI. Поскольку система обязана обрабатывать несколько идентичных фрагментов.

Поэтому мы научили UniBot распознавать дубликаты и очищать от них семантический индекс. Наша стратегия идентификации копий основывается на глубоком анализе, включающем не только сравнение названий документов, но и их содержания. Это позволяет точно обнаруживать дубликаты, даже если дата модификации меняется без фактических изменений. Например, при открытии документа в Office Online. Таким образом, UniBot избегает ошибок при обнаружении дубликатов. Так не только оптимизируется процесс обработки информации, но и повышается эффективность функционирования системы в целом. Ведь Пользователи быстро получают доступ к более релевантным и точным ответам.

Рассмотрим пример крупной Корпорации, стремящейся обеспечить своим Сотрудникам доступ к актуальным политикам, процедурам и стандартам. В течение многих лет, вследствие миграций данных, ошибочного сохранения и дублирования файлов между разными Отделами, накопилось значительное количество файловых копий. И, в конце концов, это стало серьезным препятствием для эффективной работы с документами. Когда Корпорация начала применять новую функцию в UniBot, выяснилось, что один документ в среднем имел 1,3 дубля. После обнаружения таких копий UniBot их автоматически удалил. Благодаря этому Организация смогла значительно сэкономить на финансовых затратах: более чем вдвое – на процессе индексации документов и еще в 4–5 раз больше – на процессе АI-анализа информации при подготовке ответов Сотрудникам. Кроме того, очистка семантического индекса улучшила качество предоставляемых данных, а также оптимизировала затраты на инфраструктуру, уменьшив нагрузку на ресурсы Azure. Так что Корпорация снизила затраты и повысила эффективность работы с документами одновременно. Быстрый доступ к максимальной релевантной информации был обеспечен.

Другой пример — Исследовательская Компания, активно собирающая данные из Интернета самостоятельно, а также запрашивающая их в различных Организациях по стандартизации. В подобных Компаниях документы часто имеют разные названия и форматы, но содержание остается постоянным. Это приводит к тому, что количество дубликатов может достигать 4–5 на каждый документ. До внедрения в UniBot функции распознавания копий, даже используя инструмент DeepSearch, система не всегда могла найти нужную информацию. Ведь количество поисковых попыток ограничено. А вот возможность распознавания дубликатов существенно изменила ситуацию. Теперь Компания может не только оптимизировать затраты на поиск и процессинг данных, но и значительно повысить скорость и качество обработки запросов. Следовательно, результативность работы Исследователей ощутимо повысилась.

Короче говоря, функция распознавания дубликатов и очистки от них семантического индекса в Персональном ассистенте & Корпоративном чат-боте UniBot существенно повышает эффективность работы с документами. Пользователи, избегая необходимости задерживаться на дубликатах, быстро получают максимально релевантные ответы. А Заказчики снижают затраты на процессинг лишних данных. Так UniBot создает более эффективную информационную среду для Организаций, которым важны точность и скорость в обработке информации.