Chatboty často preháňajú vedecké zistenia, ukazuje štúdia
Výskumníci analyzovali takmer 5 000 zhrnutí generovaných rozsiahlymi jazykovými modelmi a zistili, že mnohé z nich systematicky preháňajú zistenia z pôvodných vedeckých textov. Novšie modely sa ukazujú ako menej presné ako staršie.

Potrebujete rýchlo zhrnúť vedecký článok? Spoliehanie sa na ChatGPT a podobné chatboty môže byť zavádzajúce. Nová štúdia odhalila, že až v 73% prípadov tieto jazykové modely (LLM) vytvárajú nepresné závery.
Výskumníci z Utrechtskej univerzity a univerzít Western Ontario a Cambridge, Uwe Peters a Benjamin Chin-Yee, podrobili rozsiahle jazykové modely ako ChatGPT, DeepSeek, Claude a LLaMA dôkladnému testovaniu. Použili abstrakty a články z popredných vedeckých časopisov ako Nature, Science a The Lancet. Ich cieľom bolo zistiť, ako presné sú zhrnutia vytvorené týmito modelmi.
"Zozbierali sme 4 900 zhrnutí počas roka. Analýza ukázala, že šesť z desiatich modelov systematicky preháňalo tvrdenia z pôvodných textov," uviedol Peters. Hoci rozdiely boli často jemné, tieto nuansy môžu zásadne ovplyvniť interpretáciu vedeckých poznatkov.
Štúdia tiež porovnávala zhrnutia napísané ľuďmi so zhrnutiami generovanými LLM. Chatboty mali takmer päťkrát vyššiu tendenciu vytvárať rozsiahle zovšeobecnenia. Prekvapivo, novšie modely ako ChatGPT-4o a DeepSeek dosiahli horšie výsledky ako ich staršie verzie.
Komentár redakcie: Užívatelia internetu na Reddite komentovali, že novšie modely sú trénované na obsahu, ktorý obsahuje chytľavé titulky a prehnané formulácie, čo vedie k horšej presnosti pri sumarizovaní vedeckých informácií. Iní poukázali na to, že staršie modely boli trénované na kvalitnejších zdrojoch ako knihy a recenzované články.