Новини

АІ-UniBot: ідентифікація та видалення дублікатів файлів

Швидкий доступ до інформації та дешеве її зберігання – це лише одна сторона цифрового прогресу. Наші Розробники зосередились на іншій: засмічення сховищ непотрібними дублікатами. Адже зберігання кількох копій одного документа здається менш затратним, ніж пошук і видалення кожної з них вручну. Бо зазвичай процес розпізнавання та очищення пам’яті від дублікатів вимагає ресурсів, які гаяти на це не хочеться,. Щонайменше –  кількох годин робочого часу Співробітників, що мали б регулярно виділятися на таке «прибирання». І це спонукало більшість Організацій просто ігнорувати цю проблему. Тому практично в кожного з нас один документ існує в кількох варіантах. Втім так було, доки  ми не доручили «прибирання» Персональному асистенту & Корпоративному чат-боту UniBot

Як не дивно, але в разі застосування Штучного Інтелекту (АІ) для пошуку файлів чи надання відповідей на запитання, ситуація лиш погіршується. Бо дублікати документів стають серйозною перешкодою, що впливає на ефективність системи. Вони не лише збільшують часові та фінансові витрати на індексацію, але й знижують точність та релевантність відповідей, які надає АІ. Адже система змушена обробляти кілька ідентичних фрагментів.

Тому ми навчили UniBot розпізнавати дублікати та очищувати від них семантичний індекс. Наша стратегія ідентифікації копій базується на глибокому аналізі, який включає не лише порівняння назв документів, а й власне їхнього змісту. Це дозволяє точно виявляти дублікати, навіть якщо дата модифікації змінюється без фактичних змін. Наприклад, в разі відкриття документа в Office Online. Таким чином, UniBot уникає помилок під час виявлення дублікатів. Так не лише оптимізується процес обробки інформації, але й підвищується ефективність системи загалом. Адже Користувачі отримують доступ до більш релевантних та точних відповідей.

Розгляньмо приклад великої Корпорації, яка прагне забезпечити своїм Співробітникам доступ до актуальних політик, процедур і стандартів. Протягом багатьох років, унаслідок міграцій даних, помилкового збереження та дублювання файлів між різними Відділами, накопичилася значна кількість копій документів. І зрештою це стало серйозною перешкодою для ефективної роботи з файлами. Коли Корпорація почала застосовувати нову функцію в UniBot, з’ясувалося, що один документ в середньому мав 1,3 дублі. Після виявлення цих копій, UniBot їх автоматично видалив. Завдяки цьому Організація змогла значно заощадити на фінансових витратах: більше ніж удвічі — на процесі індексації документів і ще в 4-5 разів більше — на процесі АІ-аналізу інформації при підготовці відповідей Співробітникам. Окрім того, очищення семантичного індексу покращило якість даних, а також оптимізувало витрати на інфраструктуру, зменшивши навантаження на ресурси Azure. Так Корпорація зменшила витрати і підвищила ефективність роботи з документами водночас. Адже швидкий доступ до максимально релевантної інформації було забезпечено.

Інший приклад — Дослідницька Компанія, що активно збирає дані з Інтернету самотужки, а також запитує їх у різних Організаціях по стандартизації. У такій Компанії документи часто мають різні назви і формати, але зміст залишається сталим. Це призводить до того, що кількість дублікатів може сягати 4-5 на кожен документ. До впровадження у UniBot функції розпізнавання копій, навіть застосовуючи інструмент DeepSearch, система не завжди могла знайти потрібну інформацію. Адже кількість пошукових спроб обмежена. А от можливість розпізнавання дублікатів суттєво змінила ситуацію. Тепер Компанія може не тільки оптимізувати витрати на пошук і процесинг даних, але й значно підвищити швидкість та якість обробки запитів. Відтак результативність роботи Дослідників відчутно підвищилась.  

Коротше кажучи, функція розпізнавання дублікатів та очистки від них семантичного індексу в Персональному асистенті & Корпоративному чат-боті UniBot суттєво підвищує ефективність роботи з документами. Водночас Користувачі, уникаючи необхідності зупинятися на дублікатах, отримують максимально релевантні відповіді. А Замовники знижують витрати на процесинг зайвих даних. Так UniBot створює більш ефективне інформаційне середовище для Організацій, яким важливі точність і швидкість в обробці інформації.

 

Є питання? Напишіть!