Umelá inteligencia a ručičkové hodiny: Prečo majú rozsiahle jazykové modely problém s určením času?

Výskumníci zistili, že rozsiahle jazykové modely majú problém s presným určením času z analógových hodín, čo poukazuje na obmedzenia v ich schopnostiach spracovania obrazu a priestorovej orientácie.

Umelá inteligencia a ručičkové hodiny: Prečo majú rozsiahle jazykové modely problém s určením času?
Zdroj: ieee.org
Napriek pokročilým schopnostiam umelej inteligencie, rozsiahle jazykové modely (LLM) stále zaostávajú v jednoduchých úlohách, ako je čítanie času z analógových hodín. Nová štúdia odhaľuje, s akými aspektmi analýzy obrazu majú tieto modely najväčšie problémy.

Rozsiahle jazykové modely (LLM), ktoré dokážu analyzovať rôzne typy médií, vrátane textu, obrázkov a videa, si získavajú popularitu v oblastiach ako športová analytika a autonómne riadenie. Prekvapivo však tieto modely často zlyhávajú pri úlohách, ktoré sa nám zdajú elementárne, napríklad pri presnom určení času z analógových hodín. Táto skutočnosť vyvoláva otázky o tom, s ktorými konkrétnymi aspektmi analýzy obrazu majú LLM problémy.

Skupina výskumníkov vedená Javierom Condeom z Universidad Politécnica de Madrid sa zamerala na preskúmanie týchto limitácií. Ich štúdia, publikovaná v IEEE Internet Computing, naznačuje, že ak má LLM problém s jedným aspektom analýzy obrazu, môže to vyvolať kaskádový efekt, ktorý ovplyvní aj ďalšie aspekty.

Vedci vytvorili rozsiahly dataset syntetických obrázkov analógových hodín zobrazujúcich viac ako 43 000 rôznych časov. Testovali schopnosť štyroch rôznych LLM určiť čas na základe týchto obrázkov. Spočiatku všetky modely zlyhali. Zlepšenie dosiahli až po dodatočnom trénovaní s 5 000 ďalšími obrázkami, no výkon opäť klesol pri testovaní na úplne novej sade obrázkov.

Komentár redakcie: Táto štúdia zdôrazňuje, že aj zdanlivo jednoduché úlohy môžu predstavovať pre rozsiahle jazykové modely značné výzvy. Je dôležité si uvedomiť, že modely sú dobré len tak, ako dobré sú dáta, na ktorých boli trénované, a že rozsiahle testovanie s rôznymi vstupmi je nevyhnutné na zabezpečenie ich spoľahlivosti v reálnych aplikáciách. Mnohí ľudia očakávajú, že sa umelá inteligencia bude neustále zlepšovať, čo vedie k otázke: Dokážu modely umelej inteligencie nakoniec presne čítať tradičné analógové hodiny? Ukáže až čas.

Výsledky poukazujú na kľúčové obmedzenie mnohých AI modelov: dobre rozpoznávajú dáta, s ktorými sú oboznámené, ale majú problém s novými, neznámymi situáciami. Inými slovami, často im chýba generalizácia.

Conde a jeho kolegovia sa snažili zistiť, prečo je určovanie času pre LLM také náročné. Experimentovali s novými datasetmi analógových hodín, ktoré mali zdeformované tvary alebo upravený vzhľad ručičiek. Zistili, že modely majú problém určiť priestorovú orientáciu ručičiek, a ešte väčší problém, keď ručičky mali neobvyklý vzhľad. Chyby v rozpoznávaní ručičiek následne viedli k väčším chybám v priestorovej orientácii.