Ez a tesseract és a raspberry kombója egy csoda

egyedül azt sajnálom, hogy a szkennert (Canon Lide 300) vagyok képtelen beizzítani alatta.

Ja, de a lényeg.

Adott egy szkenner, amivel iszonyatos ütemben lehet digitalizálni (szöveg 150 dpi, fotó 300-1200 dpi minőségtől függően) mindent, ami előkerül a Kispest/Honvéd történetéből. Szerencsére van bőven kép, dokumentum és történelem, vagyis munka is akad vele rendesen.

Amúgy kábé miről beszélsz?

Messziről indítom.

A szkennelt anyagok először felkerülnek egy felhőbe (bysh-en hosztolt nextcloud), majd átszinkronizálódnak egy erre a célra dedikált raspberry 4b-re (2 gigás alapmodell, sima rpi OS, vagyis egy debian), hogy ott aztán beindulhasson a VARÁZSLAT, vagyis a tesseract.

A raspberry egyébként egy olyan számítógép, ami gyakorlatilag nem fogyaszt semmit (egy 15 wattos USB-C kábellel csatlakozik a villanyhálózathoz, de szükség esetén elfut akár powerbankról is), viszont van benne egy egész jól kihasználható négymagos ARM proci, valamint házzal együtt sem nagyobb egy doboz ciginél.

Nálam egyedül a hűtése nincs tisztességesen megoldva, mert sikerült elbasznom, és egy olyan ventilátort és dobozt rendelnem, ahol a ventinek mindössze két kábele van, vagyis az áram még pont át tud folyni rajta, viszont nincs egy harmadik, hogy vezérelhető legyen a GPIO porton keresztül. Helyette az van, ha nagyon melegszik az eszköz, akkor – mint az állatok, kézzel – rádugom a ventilátor kilógó kábelét az egymás mellett lévő 2-es és 4-es pinekre, erre felkerreg, és lehűti magát. Mindegy, valamikor majd lesz egy házcsere, és akkor be tudom állítani, hogy ha eléri mondjuk a 70 celsiust, akkor automatikusan kapcsolja be a hűtést.

(Megjegyzés: otthoni mikroszerverként (pihole, plex, etc) csak akkor használom a ventilátort, ha valamilyen okból szükségem van a rendszer grafikus felületére [lxde] és ezért rákötöm egy monitorra, egérre, billentyűzetre, vagy ha üzenetet küld telegramon, mert a hőmérséklete egy megadott szint fölé emelkedett, bár utóbbi csak akkor fordul elő nagyon ritkán, ha olyan külső merevlemezt kerül rá, amelyik nem rendelkezik önálló tápellátással. A tesseractos gépen viszont futás közben állandóan be van kötve a venilátor, mert az optikai karakterfelismerés egy erősen processzorigényes feladat.)

Hűtés nélkül is simán tartja (wifi van, grafikus rendszer nem fut, egyetlen periféria, így az eth0 sincs rákötve) az 56-59 celsiust. A nagyobb beszakadások idején kézzel kötöttem rá a ventilátort, mert valami izzasztóbb dolgot csináltunk. (képernyőkép: RPi-Monitor)

Nyugi, még most sem értem

A tesseract pedig, kérlek alásan, nem más, mint egy szabad forráskód alatt terjesztett és fejlesztett optikai karakterfelismerő alkalmazás, és ami egészen csodálatosan és gyorsan dolgozik még a magyar nyelvű dokumentumokkal is. Vagyis: ami valaha ki lett nyomtatva, esetleg írógéppel, vagy egyéb nyomdatechnikával készült, azt nagyon, nagyon, nagyon magas hatásfokkal olvassa be, és feszíti rá egy pdf doksira, így a benne lévő képfileok tartalma egyszerűen kereshető lesz.

# ennyi egy folderon végigmenni, és az összes képből kereshető pdf-et gyártani
for i in *.jpeg ; do tesseract $i $i -l hun pdf;  done;

# a végén azért összefűzzük őket egy doksiba
pdftk *.pdf output my_pdf.pdf

Képzeljünk el iszonyat sok, de tényleg iszonyat sok nyomtatott oldalt, amit egyszerűen képtelenség végigolvasni, kijegyzetelni, felcímkézni, bugyikba archiválni, a címkerendszerből kimutatást készíteni, satöbbi, satöbbi, vagyis rendszerezni. Kereshetetlen, sőt, eleve az komoly emlékezőképességet igényel, hogy tudd, nagyjából milyen tartalmaid lehetnek.

Ezzel szemben a karakterfelismert (ocr) dokumentumok egyszerűen szortírozhatók, kereshető a tartalmuk, vagyis ha neked eszedbe jut – teszem azt – Puskás, és beírod a géped keresőjébe, hogy Puskás, akkor ki fogja dobálni azokat a dokumentumokat, amelyekben szerepel. Ennyire egyszerű.

Nyilván, most a következő lépés az lesz, hogy egy online tárhelyet kell keresnünk, ami hasonlóan működik, mint az Arcanum rendszere, vagyis böngészhető, kereshető, áttekinthető, exportálható, és mindezt bárhonnan a világon, hiszen internetes világháló, ugyebár. Ha véletlenül ismersz ilyesmi, ráadásul szabad forráskódú dokumentumkezelő, vagy egyéb rendszereket, akkor semmiképp ne fogd vissza magad. Az se baj, ha mondjuk directus, csak működjön.

Eddig a pofázás, most inkább megmutatom miről beszéltem:

Itt van egy levél, amit Czibor Zoltán írt (sk.) 1995-ben, és amiben sajnálatát fejezi ki, hogy nem tudott jelen lenni egy 1992-es (!!!) rendezvényen, ami egyébkén Esterházy Marci búcsúmeccse mellé-köré lett szervezve.

A dokumentum egy egyszerű jpg (150 dpi), amiből a tesseract csinált kereshető, kijelölhető, szövegében másolható pdf-et.


Szóval, amikor azt látjátok, hogy mostanában megritkult a kontentgyártás az oldalra, akkor gondoljatok arra, hogy

  • egyrészt van civil életünk,
  • civil munkánk,
  • közösségi munkánk (l. fent, plusz ugyanez képekkel*),

vagyis a maradékból lehet annyit fordítani az oldalra, amennyit nem sajnálunk. Nyilván fasza lenne valamivel többet, és őszintén sajnálom, azonban most tényleg csak ennyi jut.

*_ a következő projekt, miután megoldódott a szövegdigitalizálás, mert innen már csak idő kérdése, hogy minden be legyen szkennelve, majd végigfuttatva az ocr-en, és végül rendszerezve, szóval, a következő projekt egy arcfelismerő rendszer kiépítése lenne.

Itt annyi a lényeg, hogy feltöltünk sok-sok fotót, olyan emberekről, akiket ismerünk, majd az alkalmazás összerendezi őket egyező arconként. Itt mi megmondjuk, hogy igen, ezen arcok mindegyike – mondjuk – Bozsik. Innentől, ha újabb kép kerül a rendszerbe, akkor azon azonnal arcot keres, majd ha talál, akkor szól, hogy kit. A mi dolgunk csak annyi, hogy megmondjuk neki: igen, ő azt, vagy nem, nem ő az, ellenben tudjuk kicsoda.

Tehát meg kéne tanítanunk egy arcfelismerőt is, mert egyre több a kép, és jó lenne tudni, rendszerezni, hogy melyiken ki található. Legalább azoknál a képeknél, ahol az algoritmus felismer egy-egy arcot. Hosszabb távon a jelenleg még beazonosítatlan szereplők beazonosítását is elősegíthetné, hiszen amíg az emberi szemnek és agynak nem tűnik fel, hogy egy ismeretlen arc több képen is szerepel, addig az alkalmazásnak igen.


? a hozzászólás // előmoderált
? az offtopicot // az offtopicba.