egyedül azt sajnálom, hogy a szkennert (Canon Lide 300) vagyok képtelen beizzítani alatta.
Ja, de a lényeg.
Adott egy szkenner, amivel iszonyatos ütemben lehet digitalizálni (szöveg 150 dpi, fotó 300-1200 dpi minőségtől függően) mindent, ami előkerül a Kispest/Honvéd történetéből. Szerencsére van bőven kép, dokumentum és történelem, vagyis munka is akad vele rendesen.
Amúgy kábé miről beszélsz?
Messziről indítom.
A szkennelt anyagok először felkerülnek egy felhőbe (bysh-en hosztolt nextcloud), majd átszinkronizálódnak egy erre a célra dedikált raspberry 4b-re (2 gigás alapmodell, sima rpi OS, vagyis egy debian), hogy ott aztán beindulhasson a VARÁZSLAT, vagyis a tesseract.
A raspberry egyébként egy olyan számítógép, ami gyakorlatilag nem fogyaszt semmit (egy 15 wattos USB-C kábellel csatlakozik a villanyhálózathoz, de szükség esetén elfut akár powerbankról is), viszont van benne egy egész jól kihasználható négymagos ARM proci, valamint házzal együtt sem nagyobb egy doboz ciginél.
Nálam egyedül a hűtése nincs tisztességesen megoldva, mert sikerült elbasznom, és egy olyan ventilátort és dobozt rendelnem, ahol a ventinek mindössze két kábele van, vagyis az áram még pont át tud folyni rajta, viszont nincs egy harmadik, hogy vezérelhető legyen a GPIO porton keresztül. Helyette az van, ha nagyon melegszik az eszköz, akkor – mint az állatok, kézzel – rádugom a ventilátor kilógó kábelét az egymás mellett lévő 2-es és 4-es pinekre, erre felkerreg, és lehűti magát. Mindegy, valamikor majd lesz egy házcsere, és akkor be tudom állítani, hogy ha eléri mondjuk a 70 celsiust, akkor automatikusan kapcsolja be a hűtést.
(Megjegyzés: otthoni mikroszerverként (pihole, plex, etc) csak akkor használom a ventilátort, ha valamilyen okból szükségem van a rendszer grafikus felületére [lxde] és ezért rákötöm egy monitorra, egérre, billentyűzetre, vagy ha üzenetet küld telegramon, mert a hőmérséklete egy megadott szint fölé emelkedett, bár utóbbi csak akkor fordul elő nagyon ritkán, ha olyan külső merevlemezt kerül rá, amelyik nem rendelkezik önálló tápellátással. A tesseractos gépen viszont futás közben állandóan be van kötve a venilátor, mert az optikai karakterfelismerés egy erősen processzorigényes feladat.)
Nyugi, még most sem értem
A tesseract pedig, kérlek alásan, nem más, mint egy szabad forráskód alatt terjesztett és fejlesztett optikai karakterfelismerő alkalmazás, és ami egészen csodálatosan és gyorsan dolgozik még a magyar nyelvű dokumentumokkal is. Vagyis: ami valaha ki lett nyomtatva, esetleg írógéppel, vagy egyéb nyomdatechnikával készült, azt nagyon, nagyon, nagyon magas hatásfokkal olvassa be, és feszíti rá egy pdf doksira, így a benne lévő képfileok tartalma egyszerűen kereshető lesz.
# ennyi egy folderon végigmenni, és az összes képből kereshető pdf-et gyártani
for i in *.jpeg ; do tesseract $i $i -l hun pdf; done;
# a végén azért összefűzzük őket egy doksiba
pdftk *.pdf output my_pdf.pdf
Képzeljünk el iszonyat sok, de tényleg iszonyat sok nyomtatott oldalt, amit egyszerűen képtelenség végigolvasni, kijegyzetelni, felcímkézni, bugyikba archiválni, a címkerendszerből kimutatást készíteni, satöbbi, satöbbi, vagyis rendszerezni. Kereshetetlen, sőt, eleve az komoly emlékezőképességet igényel, hogy tudd, nagyjából milyen tartalmaid lehetnek.
Ezzel szemben a karakterfelismert (ocr) dokumentumok egyszerűen szortírozhatók, kereshető a tartalmuk, vagyis ha neked eszedbe jut – teszem azt – Puskás, és beírod a géped keresőjébe, hogy Puskás, akkor ki fogja dobálni azokat a dokumentumokat, amelyekben szerepel. Ennyire egyszerű.
Nyilván, most a következő lépés az lesz, hogy egy online tárhelyet kell keresnünk, ami hasonlóan működik, mint az Arcanum rendszere, vagyis böngészhető, kereshető, áttekinthető, exportálható, és mindezt bárhonnan a világon, hiszen internetes világháló, ugyebár. Ha véletlenül ismersz ilyesmi, ráadásul szabad forráskódú dokumentumkezelő, vagy egyéb rendszereket, akkor semmiképp ne fogd vissza magad. Az se baj, ha mondjuk directus, csak működjön.
Eddig a pofázás, most inkább megmutatom miről beszéltem:
Itt van egy levél, amit Czibor Zoltán írt (sk.) 1995-ben, és amiben sajnálatát fejezi ki, hogy nem tudott jelen lenni egy 1992-es (!!!) rendezvényen, ami egyébkén Esterházy Marci búcsúmeccse mellé-köré lett szervezve.
A dokumentum egy egyszerű jpg (150 dpi), amiből a tesseract csinált kereshető, kijelölhető, szövegében másolható pdf-et.
Szóval, amikor azt látjátok, hogy mostanában megritkult a kontentgyártás az oldalra, akkor gondoljatok arra, hogy
- egyrészt van civil életünk,
- civil munkánk,
- közösségi munkánk (l. fent, plusz ugyanez képekkel*),
vagyis a maradékból lehet annyit fordítani az oldalra, amennyit nem sajnálunk. Nyilván fasza lenne valamivel többet, és őszintén sajnálom, azonban most tényleg csak ennyi jut.
*_ a következő projekt, miután megoldódott a szövegdigitalizálás, mert innen már csak idő kérdése, hogy minden be legyen szkennelve, majd végigfuttatva az ocr-en, és végül rendszerezve, szóval, a következő projekt egy arcfelismerő rendszer kiépítése lenne.
Itt annyi a lényeg, hogy feltöltünk sok-sok fotót, olyan emberekről, akiket ismerünk, majd az alkalmazás összerendezi őket egyező arconként. Itt mi megmondjuk, hogy igen, ezen arcok mindegyike – mondjuk – Bozsik. Innentől, ha újabb kép kerül a rendszerbe, akkor azon azonnal arcot keres, majd ha talál, akkor szól, hogy kit. A mi dolgunk csak annyi, hogy megmondjuk neki: igen, ő azt, vagy nem, nem ő az, ellenben tudjuk kicsoda.
Tehát meg kéne tanítanunk egy arcfelismerőt is, mert egyre több a kép, és jó lenne tudni, rendszerezni, hogy melyiken ki található. Legalább azoknál a képeknél, ahol az algoritmus felismer egy-egy arcot. Hosszabb távon a jelenleg még beazonosítatlan szereplők beazonosítását is elősegíthetné, hiszen amíg az emberi szemnek és agynak nem tűnik fel, hogy egy ismeretlen arc több képen is szerepel, addig az alkalmazásnak igen.
? a hozzászólás // előmoderált.
? az offtopicot // az offtopicba.
Óriás vagy Hanta!
Hmmm…mostanáig úgy tudtam, hogy a Tesseractot Loki ellopta, akkor még kocka formában, de később gyorsan kiderült, hogy a tér kövét rejti, ami aztán Thanoshoz került, aki megszerezte és elpusztította a fél világegyetemet.
Most meg kiderül, hogy Hantánál van…nem a blogra nincs neked időd baszki, egyszerűen vilaguralomra törsz.
Ha esetleg így lenne, tudd, hogy veled vagyok.
Szorgos népünk győzni fog!