Halucinace AI? Dva mozky jsou lepší než jeden

28. 12. 2024

Sdílet

Autor: © adimas - Fotolia.com
Řada startupů či poskytovatelů cloudových služeb začíná nabízet nástroje pro monitorování, vyhodnocování a nápravu problémů s generativní AI v naději, že tak eliminují chyby, halucinace a další systémové problémy spojené s touto technologií.

Jak roste rozsah využívání generativní umělé inteligence (GenAI) veřejností i firemními uživateli, setkávají se lidé s chybami, s porušováním autorských práv a někdy i s naprostými halucinacemi, což podkopává důvěru v její přesnost.

Nepředstavuje umělá inteligence novou bublinu pro investory?

Jedna studie ze Stanfordské univerzity zjistila, že GenAI dělá chyby v 75 % případů, když odpovídá na právní otázky. Studie zjistila, že například v úkolu měření precedenčního vztahu mezi dvěma různými soudními případy většina velkých jazykových modelů – Large Language Model, LLM – neposkytuje lepší výsledky než v podstatě náhodné hádání.

Problém je v tom, že LLM používané pro GenAI, jako jsou například OpenAI GPT-4o, Meta Llama 2 či Google PaLM 2, jsou nejen amorfní s nespecifickými parametry, ale jsou také trénované omylnými lidskými bytostmi, pro které je charakteristická vrozená zaujatost.

LLM studie charakterizovala jako stochastické papoušky – jak rostou, roste také nahodilost v jejich spekulativních a náhodných odpovědích. Tyto „stroje předvídající další slova“ nadále papouškují to, co se učily, ale bez logického rámce.

Máte dnes hrůzu z úniku dat? Počkejte, jak s nimi naloží genAI! Přečtěte si také:

Máte dnes hrůzu z úniku dat? Počkejte, jak s nimi naloží genAI!

Jednou z metod omezování halucinací a dalších chyb souvisejících s GenAI je Retrieval Augmented Generation neboli „RAG“, tedy metoda vytváření přizpůsobenějšího modelu GenAI, který umožňuje přesnější a konkrétnější odpovědi na dotazy.

RAG se ale nedokáže vypořádat s chaosem pramenícím z GenAI, protože stále neexistují žádná logická pravidla pro jeho uvažování.

Jinými slovy – zpracování přirozeného jazyka generativní umělou inteligencí nemá žádná transparentní inferenční (usuzovací) pravidla, aby výsledkem byly spolehlivé závěry (výstupy).

Někteří argumentují, že je zapotřebí „formální jazyk“ nebo posloupnost deklarací (pravidel nebo mantinelů), aby bylo možné zajistit spolehlivé závěry při každém kroku na cestě ke konečné odpovědi, kterou GenAI poskytuje.

Zpracování přirozeného jazyka postrádající formální systém pro přesnou sémantiku pak produkuje významy, které jsou subjektivní a postrádají pevný základ.

S pomocí monitorování a vyhodnocování však může GenAI produkovat mnohem přesnější odpovědi.

„Jednoduše řečeno je to podobné přímé dohodě, že 2 + 2 je rovno 4. S touto konečnou odpovědí (tj. 4) není spojena žádná nejednoznačnost,“ tvrdí David Ferrucci, zakladatel a výkonný ředitel společnosti Elemental Cognition.

Ferrucci je počítačový vědec, jenž pracoval jako hlavní výzkumník pro superpočítač IBM Watson, který zpracovává přirozený jazyk a v roce 2011 vyhrál vědomostní televizní soutěž Jeopardy.

Cesta mimo

Nedávným příkladem toho, jak může GenAI velmi zbloudit, je případ nového nástroje Google Gemini, který vytvářel obrázky na základě textových promptů (zadání) od uživatelů, ale výsledky byly jasně sociopoliticky předpojaté.

Textové prompty uživatelů požadující obrázky nacistů vytvářely postavy s černou pletí nebo asijskými rysy. Požadavek nakreslit obrázek papeže měl zase za výsledek vytvoření asijského, černého, nebo dokonce ženského papeže.

Při řešení problému byla společnost Google nucena platformu dokonce odpojit od internetu. Problémy Gemini však nejsou ojedinělé.

Video ke kávě

Máte čas na rychlé a informativní video?

Za účelem řešení problémů, jako byl případ Gemini, vyvinula společnost Elemental Cognition něco, co nazývá Braid – „neuro-symbolic reasoner“ (neurosymbolický uvažovač). Ten vytváří logický model jazyka, který načítá z LLM na základě rozhovorů se zaměstnanci uvedené společnosti.

„Promluvíme si s obchodními analytiky a říkáme: ‚Pojďme to probrat tak, abych problému skutečně rozuměl. Pojďme si projít různá obchodní pravidla, omezení souvislostí a oprávnění, která jsou pro vás důležitá,‘“ vysvětluje Ferrucci.

Výsledkem podle něj je, že získáte formální znalostní model využívaný tímto formálním logickým reasonerem, který ví, jak tyto problémy řešit.

„Zjednodušeně řečeno, používáme neuronové sítě k tomu, k čemu jsou dobré, a pak přidáváme logiku, transparentnost, vysvětlitelnost a společné učení,“ popisuje Ferrucci. „Pokud se to pokusíte udělat výhradně s využitím modelu LLM, budou vznikat chyby a model nebude o chybách vědět. Naše architektura nepoužívá jenom LLM.“

Subodha Kumar, profesor statistiky, provozu a datové vědy na Temple University, je přesvědčen, že předpojatost platforem GenAI minimálně v blízké budoucnosti nezmizí.

„Platformy pro obecnější účely budou mít větší předpojatost,“ upozorňuje Kumar. „Můžeme vidět vznik mnoha specializovaných platforem, které se trénují na specializovaných datech a modelech s menší předpojatostí. Můžeme mít například samostatný model pro onkologii ve zdravotnictví a samostatný model pro výrobu.“

Nový nástroj Microsoftu zatočí s halucinacemi genAI Přečtěte si také:

Nový nástroj Microsoftu zatočí s halucinacemi genAI

Prompt engineering, tedy specializace na tvorbu promptů, která je způsobem, jak doladit modely LLM lidmi, aby poskytovaly odpovědi pro specifickou oblast, se nahradí sadou logických pravidel.

Tato pravidla mohou podle Ferrucciho zajistit přesnou a jednoznačnou konverzaci realizovanou reasonerem pro obecné použití, který může vést interaktivní konverzaci prostřednictvím LLM

Start-upy nastupují

Společnost Elemental Cognition patří mezi řadu start-upů a zavedených poskytovatelů cloudových služeb včetně IBM, již vytvářejí nástroje pro monitorování, hodnocení a pozorovatelnost GenAI.

Cílem je získat určitý druh kontroly výstupů. V některých případech se tyto technologie kontroly realizují pomocí dalších strojů AI, tedy jinými slovy jedna platforma AI monitoruje jinou platformu AI, aby se zajistilo, že nebude docházet k produkování chybných odpovědí a nesprávného obsahu.

Tento druh nástrojů GenAI nabízejí ještě další firmy – např. Arize, TruEra a Humanloop. Do arény monitorování AI směřuje také řada platforem pro strojové učení, jako je např. DataRobot, uvádí Kathy Lange, šéfka výzkumu pro AI a automatizaci v IDC.

Monitorování výstupů GenAI dosud obecně vyžadovalo účast lidí, zejména v případě podnikových nasazení. Přestože to tak pravděpodobně bude i v dohledné budoucnosti, technologie monitorování a hodnocení může výrazně snížit množství chyb AI.

„Můžete nechat lidi posoudit výstup a reakce modelů LLM a následně tuto zpětnou vazbu zahrnout do modelů, ale tato metoda není škálovatelná. Můžete také použít vyhodnocovací funkce nebo další modely LLM k posouzení výstupu jiných modelů LLM,“ tvrdí Lange. „Rozhodně se to stává trendem.“

Lange řadí software pro monitorování LLM do kategorie provozu velkých jazykových modelů (LLMOps, Large Language Model Operations), které obecně vyhodnocují a ladí aplikace založené na LLM. Obecněji se to nazývá provoz základního modelu (FMOps, Foundation Model Ops).

„FMOps se konkrétně používá k automatizaci a zefektivnění životního cyklu GenAI,“ popisuje Lange a dodává, že subjektivní povaha modelů GenAI vyžaduje některé nové nástroje, procesy a osvědčené postupy FMOps.

Nejkritičtější zranitelnosti velkých jazykových modelů Přečtěte si také:

Nejkritičtější zranitelnosti velkých jazykových modelů

Schopnosti FMOps podle něj zahrnují testování, hodnocení, sledování a porovnávání základních modelů, jejich přizpůsobení a ladění pomocí nových dat, vývoj vlastních odvozených modelů, ladění a optimalizace výkonu a zavádění a monitorování aplikací založených na FM v produkčním prostředí.

„Jde doslova o provoz strojového učení pro účely LLM, který se zaměřuje na nové sady nástrojů, architektonických principů a osvědčených postupů pro provozování životního cyklu aplikací založených na LLM,“ dodává Lange.

Například nástroj Phoenix společnosti Arize používá jeden LLM k hodnocení druhého z hlediska relevance, toxicity a kvality odpovědí. Tento nástroj využívá „stopy“ k zaznamenávání cest zvolených požadavky LLM (vytvořenými aplikací nebo koncovým uživatelem), když se šíří v několika krocích.

Doprovodná specifikace OpenInference využívá telemetrická data k pochopení chování LLM a okolního kontextu aplikace. Stručně řečeno, je možné zjistit, kde došlo k problému v pracovním toku LLM, a lze řešit problémy související s načítáním a používáním nástrojů.

Avivah Litan, viceprezidentka společnosti Gartner, tvrdí, že technologie monitorování a hodnocení LLM fungují různými způsoby. Některé kontrolují zdroj dat a snaží se přezkoumat původ odpovědi od LLM, „a pokud nenajdou hledané, pak předpokládají, že jde o halucinaci.“

Další zase hledají rozpory mezi vstupními a výstupními reprezentacemi (embeddings), a pokud se neshodují nebo si nesedí, označí se jako možná halucinace. V ostatních případech se to považuje za přijatelnou odpověď.

Technologie jiných dodavatelů naopak hledají „odlehlé hodnoty“ nebo reakce, které jsou neobvyklé.

Stejným způsobem, jakým funguje vyhledávání Google, se informace v databázi převádějí na číselná data, což je praxe známá jako „embedding“. Například hotel v regionu může dostat pětimístné označení kvůli své ceně, vybavení a lokalitě. Pokud na Googlu hledáte hotely v oblasti s podobnými cenami a vybavením, vyhledávač zobrazí všechny hotely s podobnými čísly.

Stejně tak software pro hodnocení LLM hledá odpovědi, které jsou podobné reprezentacím (embedding), nebo data, jež nejvíce připomínají dotaz.

„Pokud je to něco, co je velmi vzdálené dané reprezentaci, indikuje to odlehlou hodnotu a pak můžete zjišťovat, proč tomu tak je. Následně můžete zjistit, že to není správný zdroj dat,“ uvádí Litan. „Google má tuto metodu rád.“

Dalším způsobem, jak mohou nástroje hodnocení LLM minimalizovat halucinace a chybné výstupy, je hledat zdroj dané odpovědi. Pokud k ní neexistuje žádný důvěryhodný zdroj, znamená to, že je to halucinace.

bitcoin školení listopad 24

„Všichni hlavní cloudoví dodavatelé už pracují na podobných typech technologií, které pomáhají ladit a hodnotit aplikace LLM,“ konstatuje Lange.

Tento příspěvek vyšel v tištěném Computerworldu 9/2024. 

 

Computertrends si můžete objednat i jako klasický časopis. Je jediným odborným magazínem na českém a slovenském trhu zaměreným na profesionály v oblasti informačních a komunikačních technologií (ICT). Díky silnému zázemí přináší aktuální zpravodajství, analýzy, komentáře a přehledy nejnovejších technologií dříve a na vyšší odborné úrovni, než ostatní periodika na tuzemském trhu.

Obsah Computertrends je určen odborníkům a manažerům z firem a institucí, kteří se podílejí na rozhodovacím procesu při nákupu ICT technologií. Jednotlivá čísla si můžete objednat i v digitální podobě.