Generativní umělá inteligence (genAI) a „halucinace“ jdou ruku v ruce bez ohledu na to, jak dobře jsou vycvičeny velké jazykové modely, které za nástroji genAI stojí.
Důvěřujete firmám, které s vámi komunikují pomocí AI?
Microsoft proto představil Correction, novou funkci v rámci Azure AI Content Safety, která podle ní dokáže odhalit a následně opravit odpovědi genAI, které nejsou přímo spojeny se zdroji dat použitými k trénování LLM – jinými slovy halucinace.
„Umožnit našim zákazníkům porozumět nepodloženému obsahu a halucinacím a přijmout opatření v případě jejich výskytu je klíčové, zejména proto, že požadavky na spolehlivost a přesnost obsahu generovaného umělou inteligencí stále rostou,“ uvedla společnost v příspěvku na blogu.
Zatímco „přídavné nástroje“ mohou pomoci překontrolovat přesnost výstupů LLM, společnost Gartner zjistila, že prvním krokem ke zmírnění halucinací by mělo být použití lepších vyhledávacích technik pro Retrieval Augmented Generation (RAG) neboli tzv. grounding („uzemnění“), chcete-li se dostat k lepším kontextuálním výsledkům.
RAG je metoda utváření přizpůsobenějšího modelu genAI prostřednictvím série otázek a odpovědí poskytovaných LLM, která umožňuje přesnější a specifičtější odpovědi na dotazy.
Kromě Googlu nabízí nástroje pro monitorování, vyhodnocování a opravu problematických výsledků genAI řada startupů a dalších poskytovatelů cloudových služeb v naději, že se tyto systémové problémy podaří odstranit.
Correction od Microsoftu patří mezi několik novinek, které pracují s Azure AI Evaluation SDK, nástrojem pro hodnocení rizik, a s Hybrid Azure AI Content Safety, SDK pro zpracování AI přímo v zařízení.
Correction je k dispozici jako součást API Microsoft Azure AI Content Safety, které je v současné době k dispozici v preview podobě; lze jej použít s jakýmkoli textovým modelem genAI, včetně modelů Llama společnosti Meta i GPT-4o společnosti OpenAI.
Co se však týče jeho účinnosti, jsou analytici skeptičtí. „Halucinace jsou nadále součástí generativní AI,“ říká analytik společnosti Gartner Jason Wong. „Na trh jsou uváděny produkty, které mají halucinace mírnit, ale žádní z jejich tvůrců neslibují, že je odstraní úplně ani že se díky nim stanou genAI modely přesnými.“
Microsoft poprvé představil svou vlastní funkci pro grounding v březnu. Aby ji mohla nějaká genAI aplikace používat, musí se připojit k dedikovaným dokumentům a RAG Q&A scénářům. Zákazníci se prý od té doby dotazují, co mohou po zjištění chybných informací dělat, mimo jejich zablokování.
„Ukazuje se, že jde o zásadní výzvu v rychle se vyvíjejícím prostředí generativní umělé inteligence, kde tradiční obsahové filtry často nedokážou řešit specifická rizika spojená s halucinováním umělé inteligence,“ uvádí Katelyn Rothneyová, senior manažerka produktového marketingu společnosti Microsoft.
Nástroj Correction vycházející ze stávajících řešení pro grounding umožňuje Azure AI Content Safety identifikovat i opravovat halucinace v reálném čase – dříve, než se s nimi uživatelé aplikací generativní AI setkají.
Funguje tak, že nejprve označí „neuzemněný“ obsah. Poté systém Azure Safety zahájí proces přepisování v reálném čase, aby opravil nepřesné části a zajistil soulad s připojenými zdroji dat.
„K této opravě dochází ještě předtím, než uživatel může vidět původní nepodložený obsah,“ říká Rothneyová. K uživateli se tak dostane už opravený obsah.
Halucinogenní povaha genAI technologií je dána tím, že jejich základní modely jsou založeny na masivních, amorfních, nekonkrétních parametrech nebo možnostech, ze kterých může algoritmus vybírat odpovědi.
A ačkoli genAI většinou poskytuje velmi přesné odpovědi, je také náchylná k tomu, aby sbírala informace z míst, ve kterých je sbírat nemá, jen aby mohla poskytnout odpověď. Jakoukoli odpověď.
Pravda je, že LLM už byly označeny i jako „stochastičtí papoušci“ – čím jsou větší, tím jsou jejich odpovědi více domnělé nebo náhodnější. V podstatě jen předpovídají slova a pokračují v papouškování toho, co se naučily, avšak bez logického rámce.
Studie Stanfordovy univerzity z letošního roku zjistila, že genAI dělá chyby při zodpovídání právních otázek v 75 % případů. „Například,“ uvádí studie, „v úloze měřící precedenční vztah mezi dvěma různými soudními případy si většina LLM nevede lépe než při náhodném hádání.“
Optimalizace vyhledávací infrastruktury začleněním lexikálního i sémantického vyhledávání zvyšuje pravděpodobnost, že LLM budou předány pouze relevantní informace, uvedl Wong.
„I když to však může výrazně snížit pravděpodobnost halucinací, stále je to nemůže vyloučit,“ řekl. „Kvalita informací vyhledaných pro RAG do značné míry určuje kvalitu výstupu, a tak je výchozím předpokladem pro minimalizaci halucinací kvalitní obsahový management a řízení.“
Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.
Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.