OCR

OCR, testuak editatzeko sistema

OCR Optical Character Recognition edo Karaktereen Ezagutza Optikoa formatu digitala —dokumentu eskaneatu edo argazkiak— eskuz edo makinaz idatzia dagoen testuen ezagutzarako teknika multzo bat da. OCR erabiliz gero, irudi soila dena ordenagailuak uler dezakeen testuan bilakatzen da gero editatu ahal izateko.

Teknika hori irudietan dauden karaktereak banan-banan antzematean datza: isolatutako karaktere bakoitzaren forma, lerro eta kurben arabera zein karaktere izan daitekeen igartzen saiatzen da OCR sistema. Hitz bat irakurtzen denean, hiztegiak ere kontsulta daitezke, irakurritako hitza existitzen den baieztatzeko eta, horrelakorik ez badago, antzekoa izan daitekeen bat proposatzeko.

Sistema horiek izan dezaketen arrakasta, neurri handi batean, jatorrizko irudiaren ezaugarrietan dago: irudiaren bereizmena, alfabeto mota (latinoak, kanji, zirilikoak) eta, gehienbat, eskuizkribu edo makinaz idatzitako testua.

Alfabeto latinoz mekanografiatutako testu baten irudiaren igarpenean doitasun handia lortzen da; eskuizkribuetan, berriz, oso bestelakoak dira lortutakoaren kalitate mailak. Pertsona bakoitzak eskuz ezberdin idazten dugunez, OCR aplikazioek gure idazkera ikasteko ahalegina egiten dute, eta, horretarako, sare neuronalak esaten zaien modelo konputazionalak erabiltzen dira.

Eskuizkribua ‘on line’ igartzen

Orain arte, jada idatzitako dokumentuetatik testua xurgatzeko teknikak izan ditugu hizpide, off line modua hain zuzen, baina bada eskuizkribua atzemateko on line modua ere. Gailu bat erabilita, idaztean egindako mugimenduak gordetzen dira, eta mugimendu horiek aztertuz, idatzitako karaktereak igartzen saiatzen dira OCR sistemak. Horrelako sistemetan, hiru osagai aurki ditzakegu: erabiltzaileak idazteko erabiltzen duen arkatz moduko gailua, arkatzaren posizioa irakurtzen duen gailua —arkatzean bertan egon daiteke, arkatzetik gertu, edo tableta modukoa ere izan daiteke— eta sistemaren hirugarren pieza software aplikazio bat litzateke. Software aplikazioak arkatzak egindako mugimenduak aztertzen ditu, eta emaitza testu digital bat izaten da.

OCR softwarea

Software komertzial ugari dago merkatuan, eta, gehienetan, nahiko software garestiak dira. Macintoshen sistema eragileetan, arkatz digitalarekin batera, Inkwell erabiltzen da. Linux motako sistemetan, CellWriter erabil daiteke.

CellWriter

Ubuntu sistema eragileak bere pakete biltegietan eskaintzen du aplikazio hau, beraz, erraz instalatu daiteke: Synaptic pakete kudeatzailerekin edo kontsola bidez, apt-get komandoarekin. Aplikazioa lehen aldiz abiarazten dugunean, entrenamendu leihoa eskainiko digu aplikazioak. Bertan, hizki ezberdinak idatzi beharko ditugu, sistemak guk nola idazten dugun ikas dezan. Sistemaren entrenamendu hori funtsezkoa da gero iragarpen zuzenak egin ahal izateko.

Entrenamendua amaituta, aplikazioak sareta bat eskaintzen du. Saretaren gelaxka bakoitzean hizki bat idatzi beharko dugu, eta lerro bakoitza amaituta, CellWriter aplikazioak, guk idatzitakoa igarri eta CellWriter leihoaren azpian dagoen aplikazioari bidaliko dio testua —testu prozesagailu edo beste motako aplikazio bat—. Erabiltzaileak idatzitakoak gaizki ulertzen direnean, sistemak zuzenketak egiteko aukera eskaintzen du, eta, horrela, gehiago erabili ahala, emaitza hobeak lortzen dira. Esaterik ez dago, erabiltzaile batek entrenatutako sistemak ez duela beste erabiltzaile batentzat balio.

OCR softwarea, ‘on line’

On line moduan, mahai gaineko softwarearekin gertatzen den bezala, hainbat software komertzial dago. Guk makinaz idatzitako testuak irakurtzeko doako web aplikazio bat aipatuko dugu hemen: Google Docs (https://docs.google.com). Zerbitzu horretan dokumentuak jartzean, OCR sistema aktiba daiteke. PNG, GIF, JPG edo PDF moduko fitxategietan, Google Docsek testu-araketa burutzen du, eta jarritako fitxategiak gutxieneko bereizmena izanez gero, nahiko emaitza onak lortzen dira; hori bai, betiere makinaz idatzitako testuetan.

OCR hardwarea

Arkatz digitalek eskuz idatzitakoa ordenagailura pasatzeko modu erakargarria eskaintzen dute. Gehienetan, arkatz moduko gailuarekin batera, orriaren bazterrean jar daitekeen irakurle txiki baten beharra dago. Irakurle horrek arkatzaren mugimenduak gordetzen ditu. Irakurletik jasotako datuak baliatzen ditu software batek guk idatzitakoa testu bilakatzeko. Ordenagailura ere konektatu daiteke arkatza, idatzi ahala emaitza pantailan ikus ahal izateko. Gailu horiek nola funtzionatzen duten ikusteko, adibide gisa, Staedtler etxearen Digital Pen produktuaren orrian sartu eta bertako bideoa ikus daiteke.

Aplikazioak, Apple, Sareak

Cyberduck eta Google Docs zerbitzuarekiko bateragarritasuna

cyberduckCyberduck Mac Os X sistemetarako FTP aplikazio doakoa da. Software librea da eta oso ezaguna da sistema eragile honetako erabiltzaileen artean. Hala, bada, Cyberduck 3.5 bertsio berria atera da eta bertsio honetan beste berrikuntza batzuen artean garrantzitsuenetarikoa Google Docs zerbitzuarekin ekartzen duen integrazioa da. Izan ere, azken funtzionalitate honen bitartez arakatu ahal dira Google Docs zerbitzuan dauden dokumentuak FTP batean egongo balira bezala eta dokumentu horiek antolatu eta arakatu fitxategi zerrenda moduan. Gainera, jaisteko orduan lehenetsi daiteke zein formatutan jaitsiko den Google Docseko dokumentu mota bakoitza.

Proiektuaren webgunea http://cyberduck.ch/ da eta aplikazioa zuzenean deskargatzeko lotura hau erabil daiteke: http://cyberduck.ch/Cyberduck-3.5.1.zip

Aplikazioak, Google, Internet

Google docs: Bulegotika hodeian

googledocsEgun, pixkanaka-pixkanaka, ordenagailu batekin lan egiteko joera, lokaletik, hodeira bilakatzen doa. Alegia, gero eta gehiago erabiltzen diren aplikazioak, edukiak edo dokumentuak, Interneten daude, PC batean egon beharrean. Honek, mugikortasuna eta  berehalako erabilgarritasuna ematen du. Alde batetik, etxeko ordenagailutik, bulegoko ordenagailutik, ordenagailu eramangarritik, netbooketik, edo sakelako telefonoak bezalako gailuetatik, dokumentu, informazio edo askotan aplikazio bat eskuragarri eduki ahal du erabiltzaileak. Horretarako, Internet konexio bat baino ez da beharrezkoa. Dokumentu edo fitxategi ezberdinak, leku ezberdinetatik eta momentu ezberdinetan eskuragarri eduki eta landu ahal izatea ekartzen du honek. Eta batzuetan, beste erabiltzaile batzuekin partekatzea ere posiblea da, soilik irakurtzeko edo, idazteko baimenarekin, pertsona ezberdinen artean osatzeko.

Hala, bada, Google docs, oso baliabide jatorra da horretarako. Erabili ahal izateko, Google erabiltzaile eta pasahitza edukitzea eta http://docs.google.com helbidea Internet nabigatzailean idaztea besterik ez da behar. Google docs oraindik ez dago euskaratuta.

Dokumentuak edo idazkiak lantzea

Informazio mota ezberdinak kudeatzea ahalbidetzen du Google docs baliabideak. Dokumetuak edo idazkiak da haietariko bat. Dokumentu bat sortzeko, “Sortu berria” eta agertzen den menuan “Dokumentua” aukerari sakatu behar zaio. Hori eginda, on-line testu prozesagailua zabalduko da, MS Word edo Open Office Writer baino xumeagoa, baina, nahiko osatua, testu formateatuak sortzeko.

Behin dokumentua sortuta hainbat aukera eskaintzen ditu Google docs-ek: aldaketa historikoa ikustea; izena aldatzea; kopia bat sortzea; HTML, Open Office, PDF, RTF, MS Word edo testu bezala deskargatzea; inprimatzea. Hauek guztiak “Fitxategia” aukeretatik egin ahal dira.

Testua HTML eta CSS bezala ere editatu daiteke eta dokumentu orrialde edo web orrialde bezala ikus daiteke idazkia. Bestetik, marrazteko baliabide bat ere badu eta marrazkiak txerta daitezke honen bitartez. Halaber, loturak, irudiak, karaktere bereziak, taulak, iradokizunak, oharrak edo orrialde jauziak txertatu daitezke. Era berean, goiburukoa eta orri-oina ere jarri eta editatu ahal da.

Beste hizkuntza batzuetara ere itzul daiteke dokumentua eta ortografia zuzentzailea du, idazten den bitartean ortografia egiaztatzen joaten da. Aukera hauetan, hala ere, euskara ez dago eskuragarri. Hitzak, karaktereak eta esaldiak ere zenbatzen ditu eta beste datu estatistikoak ere ematen ditu, esaldiko batez besteko hitz kopurua, esaterako.

Aurkezpenak

Aurkezpenak ere sortu ahal dira Google Docs-en bitartez, horretarako “Sortu berria” botoiari sakatu eta irekitzen den menuan “Aurkezpena” aukeratu egin behar da. MS Power Point edo Open Office Impress aplikazioetan bezalako editore bat agertuko da orduan, aurkezpenak sortzeko diapositibaz diapositiba.

Behin sortuta, gainera, deskarga daiteke PDF, Power Point edo Testu formatuetan. Aurkezpenak on-line erakustea baimentzen du eta hizlariaren oharrak ere ikusgai jar daitezke.

Aurkezpenak egiteko gai ezberdinak konfiguratu daitezke, aurkezpenari itxura emateko eta edozein gai aukeratuta ere, atzeko irudia edo kolorea aldatu daiteke edozein momentutan.

Testuak, irudiak, bideoak, marrazkiak edo taulak txertatu daitezke. Era berean, posiblea da beste diapositiba batzuk inportatzea sortutako beste aurkezpen batzuetatik.

Kalkulu orriak

Kalkulu orriak egitea ere ahalbidetzen du Google Docs-ek, Excel, Open Office Calc eta CSV formatuetatik inportatu ahal dira datuak eta era berean, PDF, HTML eta lehen aipatutako formatuak bezala deskargatu ahal dira Google docs-en sortutako kalkulu orriak. Beste fitxategi motetan bezala, aldaketa historikoa ere ikus daiteke, eta hortik, kalkulu orrian aldaketa unean zegoen bezala erakusten da eta, era berean, zein momentutan aldatu den azaltzen da.

Kalkulu orriak sortzeko, “Sortu berriari” sakatu eta “kalkulu orriak” aukeratu. Hori eginda, MS Excel edo Open Office Calc bezalako aplikazioetan agertzen den kalkulu orria agertuko da. Hemendik, orri ezberdinak, kudeatu ahal dira, formulak, irudiak, marrazkiak, gadgetak eta grafikoak txerta daitezke. Formularioak ere sortu ahal dira eta taulak ordenatu nahi diren irizpideen arabera.

Formularioak

Formularioak galdeketekin ere sor daitezke eta posta elektronikoz bidali ahal dira edo webgune batean txertatzeko aukera ere eskaintzen du. Gero, ikus daitezke erantzunak era ezberdinetan

Beste aukera batzuk

Google docs-ek ahalbidetzen du on-line sortzen diren fitxategi ezberdinak karpetaka antolatzea eta hainbat fitxategi batera deskargatzea zip formatu konprimituan. Era berean, karpetak koloreztatu daitezke hobeto bereizteko. Eta orain dela gutxi, edozein fitxategi mota igotzeko aukera ere gaitu dute, beraz, fitxategi biltegia ere izan daiteke, irudiak edo pdfak gordetzeko, esaterako, beste dokumentu motekin batera.