Mogu li opći AI modeli koje nude Gemini i ChatGPT vjerodostojno transkribirati i transliterirati rukopisne izvore? Testirali smo ih na korespondenciji Ivana Kukuljevića Sakcinskog. Za potrebe kratkog testiranja iskorišteno je 7 pisama, pisanih na sedam jezika (hrvatski, njemački, mađarski, talijanski, francuski, latinski, češki).
Rezultati su zadovoljavajući i upozoravajući.
Koji AI alati su korišteni?
U analizi su korišteni:
ChatGPT 5, plaćena Plus verzija, automatski način rada (Auto).
Gemini 3, besplatna verzija, brzi način rada (Fast).
Pridružen i Transkribus
Općim AI modelima pridružen je i Transkribus, dugo godina razvijani specijalizirani alat namijenjen automatskom čitanju rukopisnih izvora. Transkribus se sastoji od brojnih modela od kojih je svaki treniran na specifičnom korpusu izvora. Idealan je za transkripciju velikog korpusa izvora pisanog istim pismom, a koji je moguće automatski transkribirati na 2 načina: 1. treniranjem vlastitog modela, odnosno ručnom transkripcijom određenog postotka izvora, i 2. korištenjem već postojećih tuđih modela.
Analiza je pokazala da je Transkribus bez preciziranja odnosno korištenja točno specifičnih modela gotovo neupotrebljiv. Drugim riječima, Transkribus ne nudi brzo prepoznavanje teksta koje nude opći AI modeli kao što su ChatGPT i Gemini. Za relativnu preciznost potrebno je ili trenirati vlastiti model ili iskoristiti specifičan model za sličan korpus izvora. Dok su neki autorski modeli trenirani na manjem korpusu izvora, veliki modeli poput German Genius trenirani su na znatno većem korpusu.Stoga su u ovoj analizi za transkripciju pisma na njemačkom iskorišteni i:
Transkribus German Genius (super model) i Kurrent script model 1500s -1900s).
Rezultati testiranja
Hrvatski jezik: ćirilica
ChatGPT potpuno gubi strukturu, izbacuje manje smislen tekst, teže čita vlastite imenice. Gemini izbacuje koherentan i smislen tekst. Upozorava da autor koristi jekavicu.
Mađarski jezik
Oba alata izbacuju sličan i smislen tekst. Chat GPT je krivo pročitao oslov te tako ishalucinirao barunicu Eleonoru.
Talijanski jezik
Oba alata izbacuju sličan i smislen tekst. (Rukopis je lijep i čitak.)
Francuski jezik
Oba alata izbacuju sličan i smislen tekst. ChatGPT točnije prepoznaje vlastitu imenicu (fra. Goncet).
Njemački jezik
ChatGPT izbacuje posve nekoherentan i besmislen tekst potaknut promašenim prepoznavanjem pojedinih riječi. Gemini i Transkribus (u oba modela) izbacuju sličan i smislen tekst. Gemini problematičnu riječ koju je Transkribus prepoznao kao Sumundschaft prepoznaje sasvim pogrešno i mijenja je s modernijim izrazom Freundschaft. Geminijev opći model bolje prepoznaje vlastite imenice, ali je sklon sažimanju.
Latinski jezik
ChatGPT potpuno griješi u transkripciji (Corillustri), izbacuje nepovezane fragmente, stoga i halucinira u prijevodu. Geminijeva transkripcija je preciznija, smislenija, točnije prepoznaje vlastite imenice.
Češki jezik
Oba alata izbacuju sličan i smislen tekst. ChatGPT primjerice ne prepoznaje ključnu riječ “pobratřencům” (pobratimima). ChatGPT teže čita vlastite imenice.
Dominacija Geminija?
Na cijelom korpusu testiranih rukopisa Gemini 3 pokazao se učinkovitijim alatom od ChatGPT-a. Dok ChatGPT u slučajevima njemačkog i latinskog pisma izbacuje posve nekoherentne strukture i gubi smisao, Gemini pokazuje znatniju konzistentnost i preciznost u svim pismima. Bolji tj. precizniji prompt vjerojatno bi poboljšao transkripciju.
ChatGPT 5: Od prosjeka do potpune halucinacije
ChatGPT je pokazao ekstremne oscilacije. Dok se s romanskim jezicima nosio vrlo dobro, kod težih pisama podbacio je generiranjem halucinacija.
Zaključak: AI kao osobni asistent, ne i vaša zamjena
Analiza pokazuje da vid umjetne inteligencije ovisi o jeziku i vrsti pisma. Šira analiza rukopisa iz različitih razdoblja vjerojatno bi pokazala da sposobnosti AI-a ovise i o dataciji pisma. Proširena analiza s više različitih pisama iz istog razdoblja pokazala bi dakako i da sposobnosti AI-a ovise o težini rukopisa.
Međutim, ako ne tražimo dlaku u jajetu, AI je izvrstan alat za ubrzavanje transkripcije – što ova analiza i pokazuje. To je posebno vidljivo kod lakših rukopisa (npr. u ovoj analizi francusko i talijansko pismo), ali potreban je oprez kod kompleksnijih povijesnih izvora.
Za kraj, 6 osnovnih preporuka za korištenje AI-a u radu s arhivskom građom:
- Nikada ne vjerujte transkripciji bez provjere.
- Kombinirajte alate: Primjerice, koristite i Transkribusov specifični model i Gemini.
- Pazite na halucinacije: Ako transkripcija na prvu zvuči previše “moderno” ili nelogično, vjerojatno je riječ o izmišljenom sadržaju.
- Isprobajte plaćene verzije Geminija i sporiji način rada kod težih rukopisa.
- Ako Gemini počne halucinirati ili miješati sadržaj prethodnih rukopisa s novima, zatvorite razgovor. Otvorite potpuno novi razgovor kako bi se očistila radna memorija i izbjegla kontaminacija rezultata.
- Pokušajte eksperimentirati s preciznijim promptovima:
Možete čak zatražiti od alata da sam za sebe osmisli prikladan prompt. Npr.:
Prompt za preciznu transkripciju arhivske građe
Uloga: Djeluj kao stručnjak za paleografiju. Tvoj zadatak je izraditi doslovnu (diplomatičku) transkripciju priloženog dokumenta.
Stroga pravila postupanja:
Bez interpretacije: Prepiši tekst točno onako kako je napisan. Nemoj ispravljati gramatiku, pravopis ni arhaične oblike riječi.
Bez halucinacija: Ako je riječ nejasna ili mrlja prekriva slova, nemoj pogađati na temelju konteksta. Umjesto nagađanja, koristi oznaku [nejasno] ili [?word].
Očuvanje strukture: Zadrži izvorni prijelom redova, numeraciju pitanja i položaj datuma/potpisa.
Zabrana sažimanja: Ne smiješ izostaviti niti jednu riječ, kraticu ili interpunkcijski znak.
Vizualni markeri: * Prekriženi tekst u izvorniku označi kao [prekriženo: tekst].
Nadopisane riječi (iznad reda) označi kao [umetnuto: tekst].
Kritički aparat: Na kraju transkripcije, ako postoje mjesta u koja nisi siguran, izdvoji ih u kratku listu pod naslovom “Napomene o dvojbenim čitanjima”.
Format izlaza: Samo čisti tekst transkripcije, bez tvog uvodnog komentara (“Evo transkripcije…”), osim ako te ne zatražim analizu.
Kakvo je vaše iskustvo s korištenjem AI alata u radu s povijesnim izvorima?
Korišteni izvori
HR-DAVŽ-532. Obitelj Kukuljević. Korespondencija Ivana Kukuljevića.


































