Systemy wsparcia oparte na głosie przeżywają obecnie znaczący impuls rozwojowy. Coraz więcej interakcji, które dotychczas musiały być prowadzone przez pracowników, przejmują dziś cyfrowi asystenci głosowi. Niezależnie od tego, czy chodzi o call center, wsparcie techniczne czy punkty informacyjne – voiceboty oferują potencjał automatyzacji komunikacji przy jednoczesnym podnoszeniu jakości procesów obsługowych. Wkrótce dojdą kolejne obszary zastosowań, na przykład w robotyce humanoidalnej: asystenci wyposażeni w zdolności głosowe mogą towarzyszyć turystom w miastach lub wspierać opiekę nad osobami wymagającymi pomocy, łącząc siłę fizyczną z kompetencjami językowymi.
Voiceboty AI dziś: rzadko spełniają obietnice
Pomimo tych atrakcyjnych perspektyw rzeczywistość wielu projektów voicebotowych wciąż odbiega od oczekiwań. Firmy wiążą ich wdrożenie z jasno zdefiniowanymi celami: wzrostem satysfakcji klientów, odciążeniem pracowników, zwiększeniem efektywności procesów czy nawet ograniczeniem rotacji kadry w obciążających obszarach telefonicznej obsługi klienta. Jednak gdy standardowe voiceboty zostają skonfrontowane z realnymi, specyficznymi dla danej organizacji wymaganiami, szybko ujawniają się fundamentalne ograniczenia techniczne – co zespół AKQUINET wielokrotnie obserwował podczas konsultacji. Dlaczego tak się dzieje?
Jednym z głównych powodów jest fakt, że wiele systemów opiera się wyłącznie na dużych modelach językowych zoptymalizowanych pod kątem ogólnej konwersacji. Sprawdzają się one w small talku lub przy udzielaniu odpowiedzi na ogólne pytania. Jednak w momencie, gdy potrzebny jest dostęp do konkretnych danych procesowych lub wyzwolenie akcji po stronie systemu, funkcjonalność załamuje się lub zostaje poważnie ograniczona. Przykładowo: jeśli klientka chce nie tylko dowiedzieć się, kiedy dotrze jej zamówienie, ale również zmienić termin dostawy, wiele voicebotów nie jest w stanie obsłużyć takiego scenariusza. Część z nich korzysta z sztywnych, statycznych list informacji lub instrukcji, jednak głębokość oraz aktualność tych danych są niewystarczające.
Halucynacje: gdy AI woli coś wymyślić, niż nie odpowiedzieć
Prowadzi to do drugiego, równie istotnego ryzyka: halucynacji. Duże modele językowe mają tendencję do generowania odpowiedzi brzmiących przekonująco, lecz niezgodnych z rzeczywistością. Badanie z 2023 roku pokazuje, że niemal 20% wszystkich odpowiedzi generowanych przez LLM-y zawiera halucynacje (zob. HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models, październik 2023). Oczywiście modele językowe rozwijają się bardzo szybko. Nawet jeśli dziś trudno jednoznacznie określić aktualny poziom halucynacji w powszechnie stosowanych LLM-ach, jedno jest pewne: halucynacje występują i niemal każdy użytkownik modeli językowych się z nimi spotyka. Ich konsekwencje mogą być poważne – błędnie „wymyślone” stany systemów, rzekome decyzje procesowe czy nieprawdziwe informacje dotyczące warunków umów mogą wprowadzać klientów w błąd i stanowić realne ryzyko dla firm.
AI ma mieć dostęp do danych – ale w jaki sposób?
Do tego dochodzi kwestia technicznego podłączenia systemów. Bezpośredni dostęp voicebota do systemów operacyjnych rodzi szereg problemów. Z jednej strony zwiększa ryzyko niezamierzonych ingerencji AI w produktywne zbiory danych. Z drugiej – często prowadzi do wąskich gardeł wydajnościowych. Systemy ERP czy ticketowe nie są projektowane z myślą o dodatkowym obciążeniu generowanym przez zapytania AI. Efektem są przerwy w rozmowie trwające pięć sekund lub dłużej, co w kontekście rozmowy telefonicznej jest absolutnie niedopuszczalne. Doświadczenia z eksploatacji pokazują również, że sztywne architektury voicebotów szybko osiągają swoje granice. Gdy tylko zmieniają się wymagania – na przykład modyfikowane są procesy lub dodawane nowe tematy – klasyczne voiceboty okazują się trudne lub kosztowne w rozbudowie.
Zasady działania voicebota AI AKQUINET
Aby sprostać tym wyzwaniom, nowa koncepcja techniczna zespołu AKQUINET opiera się na trzech wzajemnie powiązanych zasadach:
- Zapewnienie wiarygodnych odpowiedzi
- Bezpieczny zapis informacji zwrotnych
- Precyzyjne rozdzielenie (decoupling) komponentów systemu
Co zrobiliśmy?
Centralnym elementem voicebota AI AKQUINET jest wprowadzenie warstwy pośredniej – tzw. staging area. Systemy korporacyjne nie przekazują już danych bezpośrednio do AI, lecz do tej warstwy pośredniej, która jest stale synchronizowana w czasie rzeczywistym. Voicebot uzyskuje dostęp wyłącznie do niej. Dzięki temu model AI nie ingeruje w systemy operacyjne w sposób niekontrolowany, a jednocześnie ma dostęp do aktualnych danych. Podejście to uzupełnia krótkoterminowa pamięć oparta na mechanizmie wyszukiwania (retrieval). W przeciwieństwie do klasycznego długoterminowego trenowania, AI otrzymuje potrzebne informacje tylko w danym kontekście, a następnie je odrzuca. Zmniejsza to nakład pracy i jednocześnie minimalizuje ryzyko halucynacji, ponieważ AI zawsze operuje na precyzyjnych, kontekstowych danych.
AI nigdy nie wchodzi w bezpośrednią interakcję z systemem źródłowym
Kolejnym kluczowym elementem jest sposób wyzwalania akcji. AI nie dokonuje zmian w systemach samodzielnie. Zamiast tego ma do dyspozycji wcześniej zdefiniowane narzędzia – na przykład funkcje lub zautomatyzowane moduły procesowe. Voicebot decyduje, które narzędzie jest potrzebne, uruchamia je, lecz nigdy nie komunikuje się bezpośrednio z systemami źródłowymi. Gwarantuje to spełnienie wymogów bezpieczeństwa oraz pełną rejestrowalność wszystkich operacji.
Kluczowe zalety tego podejścia to:
- ograniczenie błędnych działań dzięki wyraźnemu rozdzieleniu dostępu do danych i logiki akcji,
- pełna audytowalność wszystkich uruchamianych procesów,
- stabilność nawet przy złożonych zapytaniach.
Dalszemu rozwojowi poddaliśmy również samą komunikację. Voicebot AI AKQUINET wykorzystuje model audio działający w czasie rzeczywistym. W tym przypadku mowa nie jest najpierw przekształcana w tekst, lecz przetwarzana bezpośrednio. Zamiast sekwencji speech-to-text i ponownego text-to-speech mamy więc bezpośrednie speech-to-speech. Skutkuje to bardziej naturalnymi dialogami, większą szybkością reakcji oraz lepszą odpornością na akcenty, dialekty czy różne warianty wymowy. Mechanizm awaryjny zapewnia niezawodność – w przypadku przerwania działania modelu audio system automatycznie przełącza się na wcześniej zdefiniowany tekstowy model językowy i kontynuuje dialog, z niewielkim opóźnieniem, lecz bez przerywania połączenia.
Architektura ma kluczowe znaczenie przy integracji LLM
Równie istotna jest integracja z istniejącymi krajobrazami IT. Voicebot AI AKQUINET działa w całości w oparciu o platformę Azure. Jeśli jest uruchamiany w ramach istniejącego tenanta Microsoft, dane firmowe nie opuszczają infrastruktury organizacji. Jednocześnie firmy korzystają ze stabilności oraz bogatej dokumentacji standaryzowanych technologii.
Podsumowując, coraz wyraźniej widać, że sukces voicebota zależy mniej od wielkości zastosowanego modelu językowego, a bardziej od architektury rozwiązania: w jaki sposób udostępniane są dane, jak zapobiega się niekontrolowanym działaniom AI, jak zapewnia się szybkość reakcji oraz jak system zachowuje elastyczność w dynamicznym środowisku korporacyjnym. Opisane podejścia pokazują, że wydajne voiceboty mogą powstać wyłącznie wtedy, gdy możliwości technologiczne są ściśle powiązane z wymaganiami operacyjnymi. Stanowią one ważny krok w kierunku bezpiecznych, skalowalnych i realnie użytecznych systemów asysty głosowej w codziennym biznesie. Dzięki voicebotowi AI AKQUINET te kroki zostały już zaplanowane z myślą o Twojej firmie.