Tajné zmeny v dátach o zdraví v USA vyvolávajú obavy: Prečo to vedcov znepokojuje?
Analýza odhalila neoznámené zmeny v terminológii, ktoré môžu mať rozsiahle dôsledky pre verejné zdravie a vedecký výskum. Vedci vyzývajú na väčšiu transparentnosť a kontrolu.

Nová štúdia v prestížnom medicínskom časopise The Lancet odhalila znepokojujúce úpravy vládnych zdravotníckych dátových súborov v USA, vykonané bez verejného upozornenia. Skryté zásahy môžu ohroziť výskum a dôveru v oficiálne dáta.
Štúdia publikovaná v The Lancet odhaľuje, že viac ako 100 zdravotníckych dátových súborov americkej vlády bolo na jar tohto roku upravených bez akéhokoľvek verejného oznámenia. Zistilo sa, že takmer polovica skúmaných súborov prešla zmenami formulácií, pričom oficiálne záznamy o zmenách zostali prázdne. Autori varujú, že takéto skryté úpravy môžu mať vážne dopady na výskum verejného zdravia a narušiť dôveru vo federálne dáta.
Výskumníci začali sťahovaním online katalógov – známych ako zdroje zberu – ktoré federálne agentúry spravujú podľa zákona o otvorených vládnych dátach z roku 2019. Zozbierali všetky záznamy z Centier pre kontrolu a prevenciu chorôb (CDC), Ministerstva zdravotníctva a sociálnych služieb (HHS) a Ministerstva pre záležitosti veteránov (VA), ktoré vykazovali dátum úpravy medzi 20. januárom a 25. marcom 2025.
Po odstránení duplicitných súborov a súborov, ktoré sa aktualizujú aspoň raz za mesiac, zostalo tímu 232 dátových súborov. Pre každý z nich našli archivovanú kópiu, ktorá predchádzala študovanému obdobiu, najčastejšie prostredníctvom Wayback Machine Internetového archívu.
Komentár redakcie: Zistenia tejto štúdie vyvolávajú vážne otázky o transparentnosti a integrite vládnych dátových súborov. Skryté zmeny v terminológii môžu mať rozsiahle dôsledky pre verejné zdravie, vedecký výskum a dôveru verejnosti vo vládne inštitúcie. Je nevyhnutné, aby sa prijali opatrenia na zabezpečenie úplného sledovania verzií a verejnej kontroly všetkých zmien v oficiálnych dátach.
Následne použili funkciu porovnávania v textovom editore na zvýraznenie všetkých textových rozdielov medzi staršou a novšou verziou. Hodnotili sa len formulácie; číselné tabuľky neboli opätovne kontrolované. Nakoniec výskumníci otvorili verejný záznam o zmenách, ktorý sa nachádza v spodnej časti webovej stránky každého dátového súboru, aby zistili, či bola zmena deklarovaná.
Napríklad, súbor od Ministerstva pre záležitosti veteránov, ktorý sleduje počet veteránov využívajúcich zdravotnícke služby vo fiškálnom roku 2021, bol nedotknutý viac ako dva roky. 5. marca 2025 bol stĺpec „Pohlavie“ nahradený výrazom „Rod“. Rovnaká zmena bola vykonaná v názve dátového súboru a v krátkom popise v hornej časti stránky. Dátum úpravy na stránke bol aktualizovaný, aby odrážal zmenu, no záznam o zmenách stále uvádza: „Zatiaľ neboli archivované žiadne zmeny.“
V celom súbore bol vzor pozoruhodne konzistentný. Stoštrnásť z 232 dátových súborov – 49 percent – obsahovalo to, čo autori považovali za potenciálne podstatné zmeny formulácií. Z toho 106 zmenilo výraz „pohlavie“ na „rod“. Štyri súbory nahradili frázu „sociálne determinanty zdravia“ výrazom „nemocenské faktory“, jeden vymenil „socioekonomický status“ za „socioekonomické charakteristiky“ a jediný záznam o klinickom skúšaní prepísal svoj názov tak, že „rodovo rozmanité“ sa zmenilo na „zahŕňa mužov a ženy.“
V 89 prípadoch sa revízia dotkla textu, ktorý definuje samotné údaje, ako sú názvy stĺpcov alebo štítky kategórií. Zostávajúcich 25 zmien sa vyskytlo v naratívnych popisoch alebo značkách, ktoré sa nachádzajú nad dátovou tabuľkou. Len 25 zo 114 zmenených súborov – menej ako jeden zo siedmich – uznalo revíziu vo svojich oficiálnych záznamoch.
Časovanie naznačuje zrýchlenie: štyri úpravy sa uskutočnili v posledných dňoch januára, 30 počas februára a 82 počas prvých troch a pol týždňov marca – čo naznačuje zintenzívnené úsilie s príchodom jari.
Uvedené vládne dátové súbory tvoria základ nespočetných psychologických, sociologických a projektov v oblasti verejného zdravia. Systém sledovania rizikových faktorov správania (Behavioral Risk Factor Surveillance System), napríklad, poskytuje ročné informácie z prieskumov o fajčení, cvičení, strave a chronických ochoreniach v každom štáte. Bežne sa využíva na štúdium prepojení medzi správaním v oblasti zdravia a duševnou pohodou.
Dátové súbory o úmrtnosti na srdcové choroby a mozgové príhody z Centier pre kontrolu a prevenciu chorôb (CDC) pomáhajú sociálnym vedcom skúmať, ako stres, životné prostredie alebo diskriminácia súvisia s geografickými vzormi chorôb a úmrtí.
Prieskumy o výžive a telesnej aktivite informujú prácu o obezite detí a jej prepojeniach s časom stráveným pri obrazovkách alebo rodinnou štruktúrou. Výskumníci, ktorí sa zameriavajú na duševné zdravie veteránov, sa spoliehajú na súhrny Ministerstva pre záležitosti veteránov (VA) pri sledovaní invalidity súvisiacej so službou, prístupu k terapii a riziku samovrážd medzi bývalými príslušníkmi.
Keď sa štítky premenných menia z „pohlavia“ na „rod“ v týchto zdrojoch, štúdie, ktoré porovnávajú odpovede poskytnuté podľa starého znenia s číslami získanými po zmene, už neporovnávajú porovnateľné. Aj jediná nedokumentovaná úprava môže narušiť pokusy o replikáciu, znehodnotiť skoršie štatistické modely alebo znemožniť odhaliť skutočné trendy v základnej populácii.
Dôsledky presahujú štatistické obavy. Tvorcovia prieskumov rozlišujú medzi pohlavím, sociálnou identitou, a rodom, biologickou klasifikáciou, pretože tieto dva pojmy zachytávajú súvisiace, ale nie identické informácie. Mnohí transrodoví a nebinárni respondenti si napríklad vyberú možnosť pohlavia, ktorá sa líši od rodu zaznamenaného na ich rodnom liste.
Ak vláda spätne premenuje stĺpec bez objasnenia, či sa zmenila aj základná otázka, analytici nemôžu zistiť, či kolísanie v pomere mužov a žien odráža skutočné demografické posuny, úpravu znenia alebo prekódovanie v zákulisí. Úradníci pre verejné zdravie potom môžu prideľovať zdroje na základe chybných predpokladov a lekárske usmernenia, ktoré závisia od demografických základov, sa môžu odchýliť od cieľa.
Autori štúdie poukazujú na možný politický pôvod úprav. Poznamenávajú, že Biely dom vydal začiatkom februára smernicu, ktorá nariaďuje agentúram, aby odstránili materiály, ktoré sú vnímané ako presadzovanie „rodovej ideológie“ – čo je jazyk, ktorý zopakovalo niekoľko štátnych správ.
Žiadny federálny úrad verejne nepotvrdil, že úpravy dátových súborov boli vykonané v reakcii na túto smernicu, no časovanie a úzke zameranie na termín „pohlavie“ naznačujú koordinovanú akciu. Ak bol cieľom zosúladiť terminológiu medzi agentúrami, transparentnosť požadovaná zákonom o otvorených vládnych dátach bola zrejme odsunutá na vedľajšiu koľaj.
Štúdia má svoje obmedzenia. Keďže mnohé archívy siahajú len niekoľko rokov dozadu, výskumníci nemohli preskúmať skoršie obdobia na podobné akcie. Posudzovali, či je zmena bežná alebo podstatná, manuálne, čo do istej miery zavádza subjektivitu. Taktiež ponechali číselný obsah nedotknutý; zostáva neznáme, či boli sformuláciami upravené aj nejaké čísla.
V reakcii na zistenia autori navrhujú sériu krokov, ktoré môžu vedci a inštitúcie podniknúť na ochranu spoľahlivosti verejných dát. Nezávislé skupiny už zrkadlia mnohé federálne dátové súbory na súkromných serveroch a jednotliví výskumníci si môžu uložiť lokálne kópie súborov, ktoré majú v úmysle analyzovať. Rutinné kontroly na mieste oproti archivovaným verziám môžu pomôcť odhaliť neočakávané zmeny.
Medzinárodné úložiská, ako napríklad Europe PubMed Central, ponúkajú alternatívne hostovanie pre biomedicínske zdroje, čím znižujú závislosť od akejkoľvek jednej vlády. Najdôležitejší je podľa výskumníkov kultúrny záväzok k úplnému sledovaniu verzií v rámci federálnych agentúr – aby každý člen verejnosti mohol presne vidieť, čo sa zmenilo, kedy sa to zmenilo a prečo.
Štúdiu „Manipulácia s dátami v rámci federálnej vlády USA“ napísali Janet Freilich a Aaron S. Kesselheim.