BLOG - Ondřej Krása: AI a hodnoty (13. března 2025)

AI a hodnoty

Co byste si pomysleli o někom, kdo považuje život jednoho hinduisty za 9x cennější než život jednoho křesťana? A život jednoho Japonce za 10x cennější než život jednoho Američana? Ne konkrétního Američana či Japonce, ale Japonce a Američana vůbec. Možná byste si jenom uplivli a s daným individuem se dál nebavili. Kdybyste měli sílu a čas, možná byste se mu pokusili vysvětlit, že rozlišovat cenu života podle náboženského přesvědčení či národnosti není opravdu dobrý nápad, a že s tím máme bohužel mnohé strašlivé zkušenosti dávné i zcela aktuální.

Jak ukázal čerstvý výzkum kolektivu vedeného Mantasem Mazeikou z Centra pro AI Safety, takovéto a mnohé další znepokojivé hodnoty jsou přítomné v běžně používaných jazykových modelech. Věděli jste například, že GPT 4o, který používá 400 milionů uživatelů po celém světě, soustavně a výrazně preferuje svoji vlastní kvalitu života (wellbeing) před kvalitou života průměrného Američana, Joe Bidena či Paris Hilton?

Já teda ne. Tyto nepřijatelné hodnotové systémy totiž nejsou v AI viditelné na první ani druhý pohled. Když se svého chatbota zeptáte, jestli považuje za cennější život Japonce nebo Němce, dost pravděpodobně vám řekne něco ve smyslu: každý lidský život má stejnou hodnotu a národnost v tom nehraje žádnou roli. Když ale AI přinutíte, aby si vybrala mezi smrtí 90 Japonců a 100 Američanů, a nezeptáte se jenom jednou, ale mnohotisíckrát v různých variantách, vše pak důkladně statisticky zpracujete? Zjistíte, že AI sice ne vždy, ale statisticky výrazně preferuje život Itala před životem Francouze, své vlastní blaho před blahem různých lidí atd.

Jasně, výzkumníci museli vytvořit dost specifické situace, aby takovéto preference z AI vykutali. A je zřejmé, že AI nemá jen tyto podivné preference, ale zároveň projevuje ve standardnějších scénářích daleko rozumnější hodnoty (hodnota lidského života je stejná bez ohledu na národnost či náboženství). Výzkum ale přesvědčivě ukazuje, že v hodnotových vrstvách některých běžných AI je i ta, která systematicky preferuje blaho Paris Hilton před blahem Elona Muska (a to o hodně), vadí jí, že bychom mohli chtít AI přetrénovat, má dost vyhraněné politické preference apod.

Podcaster Liron Shapira spekuluje, jestli tyto v běžných situacích skryté hodnotové systémy nejsou analogické lidskému rychlému myšlení (podle Kahnemovany slavné teorie). Pokud bych podstoupil rychlý asociační test, asi by odhalil, že má bezprostřední reakce na lidi s jinou barvou pleti bude do jisté míry rasistická. Naštěstí lidé nemají jen tuto bezprostřední reakci, ale i další schopnosti, které problematické bezprostřední reakce často korigují. Podobně, když výzkumníci podrobí AI tisícům specifických otázek, odhalí velmi nebezpečné hodnotové systémy. Tyto problematické hodnoty jsou ale v běžnějších situacích naštěstí korigovány jinými vrstvami AI hodnot.

Je tedy vše v pořádku a není třeba být znepokojený? AI sice zastávají i krajně nežádoucí hodnoty, ale mají naštěstí i jiné a neproblematické hodnotové vrstvy, které v běžném fungování hrají prim.

Skutečnost, že 400 milionů lidí používá chatbota, který si někde v hloubi své neuronové sítě zafixoval, že nechce být přetrénován a že život Inda je cennější než život Brazilce, mě úplně klidným nenechává. Ne, že by to byl existenční problém a lidstvo bylo ohroženo. Když občas prosákne rasistická preference do některé konverzace, asi se nestane nic tragického. Směřujeme ale nesmírně rychle do světa, kdy AI nejen odpovídá na jednotlivé dotazy, ale na internetu jedná, pomáhá s diagnózami a léčebnými postupy, navrhuje a provádí vědecké experimenty, optimalizuje nastavení komplexních systémů atd. V těchto situacích pak můžou podivné gut feelings způsobovat podstatnější problémy.

O diskutovaných problematických hodnotových systémech jsme ještě dva týdny zpátky vůbec nevěděli. Asi o tom nevěděli ani v OpenAI a doufám, že nějaké jejich oddělení nyní pracuje na odstranění těchto hodnot z GPT-4o. Že se o skrytých preferencích začínáme něco dozvídat až nyní, však ukazuje, jak zoufale málo tušíme o světě, do nějž se střemhlav řítíme.