OCR

OCR, testuak editatzeko sistema

OCR Optical Character Recognition edo Karaktereen Ezagutza Optikoa formatu digitala —dokumentu eskaneatu edo argazkiak— eskuz edo makinaz idatzia dagoen testuen ezagutzarako teknika multzo bat da. OCR erabiliz gero, irudi soila dena ordenagailuak uler dezakeen testuan bilakatzen da gero editatu ahal izateko.

Teknika hori irudietan dauden karaktereak banan-banan antzematean datza: isolatutako karaktere bakoitzaren forma, lerro eta kurben arabera zein karaktere izan daitekeen igartzen saiatzen da OCR sistema. Hitz bat irakurtzen denean, hiztegiak ere kontsulta daitezke, irakurritako hitza existitzen den baieztatzeko eta, horrelakorik ez badago, antzekoa izan daitekeen bat proposatzeko.

Sistema horiek izan dezaketen arrakasta, neurri handi batean, jatorrizko irudiaren ezaugarrietan dago: irudiaren bereizmena, alfabeto mota (latinoak, kanji, zirilikoak) eta, gehienbat, eskuizkribu edo makinaz idatzitako testua.

Alfabeto latinoz mekanografiatutako testu baten irudiaren igarpenean doitasun handia lortzen da; eskuizkribuetan, berriz, oso bestelakoak dira lortutakoaren kalitate mailak. Pertsona bakoitzak eskuz ezberdin idazten dugunez, OCR aplikazioek gure idazkera ikasteko ahalegina egiten dute, eta, horretarako, sare neuronalak esaten zaien modelo konputazionalak erabiltzen dira.

Eskuizkribua ‘on line’ igartzen

Orain arte, jada idatzitako dokumentuetatik testua xurgatzeko teknikak izan ditugu hizpide, off line modua hain zuzen, baina bada eskuizkribua atzemateko on line modua ere. Gailu bat erabilita, idaztean egindako mugimenduak gordetzen dira, eta mugimendu horiek aztertuz, idatzitako karaktereak igartzen saiatzen dira OCR sistemak. Horrelako sistemetan, hiru osagai aurki ditzakegu: erabiltzaileak idazteko erabiltzen duen arkatz moduko gailua, arkatzaren posizioa irakurtzen duen gailua —arkatzean bertan egon daiteke, arkatzetik gertu, edo tableta modukoa ere izan daiteke— eta sistemaren hirugarren pieza software aplikazio bat litzateke. Software aplikazioak arkatzak egindako mugimenduak aztertzen ditu, eta emaitza testu digital bat izaten da.

OCR softwarea

Software komertzial ugari dago merkatuan, eta, gehienetan, nahiko software garestiak dira. Macintoshen sistema eragileetan, arkatz digitalarekin batera, Inkwell erabiltzen da. Linux motako sistemetan, CellWriter erabil daiteke.

CellWriter

Ubuntu sistema eragileak bere pakete biltegietan eskaintzen du aplikazio hau, beraz, erraz instalatu daiteke: Synaptic pakete kudeatzailerekin edo kontsola bidez, apt-get komandoarekin. Aplikazioa lehen aldiz abiarazten dugunean, entrenamendu leihoa eskainiko digu aplikazioak. Bertan, hizki ezberdinak idatzi beharko ditugu, sistemak guk nola idazten dugun ikas dezan. Sistemaren entrenamendu hori funtsezkoa da gero iragarpen zuzenak egin ahal izateko.

Entrenamendua amaituta, aplikazioak sareta bat eskaintzen du. Saretaren gelaxka bakoitzean hizki bat idatzi beharko dugu, eta lerro bakoitza amaituta, CellWriter aplikazioak, guk idatzitakoa igarri eta CellWriter leihoaren azpian dagoen aplikazioari bidaliko dio testua —testu prozesagailu edo beste motako aplikazio bat—. Erabiltzaileak idatzitakoak gaizki ulertzen direnean, sistemak zuzenketak egiteko aukera eskaintzen du, eta, horrela, gehiago erabili ahala, emaitza hobeak lortzen dira. Esaterik ez dago, erabiltzaile batek entrenatutako sistemak ez duela beste erabiltzaile batentzat balio.

OCR softwarea, ‘on line’

On line moduan, mahai gaineko softwarearekin gertatzen den bezala, hainbat software komertzial dago. Guk makinaz idatzitako testuak irakurtzeko doako web aplikazio bat aipatuko dugu hemen: Google Docs (https://docs.google.com). Zerbitzu horretan dokumentuak jartzean, OCR sistema aktiba daiteke. PNG, GIF, JPG edo PDF moduko fitxategietan, Google Docsek testu-araketa burutzen du, eta jarritako fitxategiak gutxieneko bereizmena izanez gero, nahiko emaitza onak lortzen dira; hori bai, betiere makinaz idatzitako testuetan.

OCR hardwarea

Arkatz digitalek eskuz idatzitakoa ordenagailura pasatzeko modu erakargarria eskaintzen dute. Gehienetan, arkatz moduko gailuarekin batera, orriaren bazterrean jar daitekeen irakurle txiki baten beharra dago. Irakurle horrek arkatzaren mugimenduak gordetzen ditu. Irakurletik jasotako datuak baliatzen ditu software batek guk idatzitakoa testu bilakatzeko. Ordenagailura ere konektatu daiteke arkatza, idatzi ahala emaitza pantailan ikus ahal izateko. Gailu horiek nola funtzionatzen duten ikusteko, adibide gisa, Staedtler etxearen Digital Pen produktuaren orrian sartu eta bertako bideoa ikus daiteke.

Mugikorrak, Segurtasuna

Carrier IQ, telefono aurreratuak arakatzen

Egunotan bolo-bolo dabil sarean: hainbat telefonotan, aplikazio batek datuak jaso eta erabiltzaileak jakin gabe, bildutako datuak bidaltzean ditu. Ziurtasun informatikoan aditua da Trevor Eckhart, eta hark frogatu du Carrier IQ izena duen software batek datu pertsonalak bildu eta Samsung HTC edo Nokia enpresei bidaltzen dizkiela.

Nahasmena nagusi bada ere, badirudi Android eta iOS (iPhone) sistema eragilea duten telefonoetan atzeman dela aplikazio kuxkuxero hori.

Erabiltzaileak sakatutako teklak, GPS datuak, bidali edo jasotako SMS eta bisitatutako webguneen helbideen berri gorde eta bidaltzen du aplikazio horrek.

Carrier IQ programaren garatzailea den enpresak dioenez, jasotako datuak ez zaizkio inori saltzen, baina ez dago argi jasotako informazio horrekin zer egiten duen. Prentsa ohar batean esan dutenez, ekoizleei eskaintzen dioten informazioa gailuak hobetzeko erabiltzen da, besterik ez.

Berria agertu eta berehala, telefonoak sortzen dituzten enpresak eta telefonia zerbitzua eskaintzen dituztenek ere euren burua zuritzeari ekin diote.

Aplikazio hori kentzea, oraingoz ez da gauza erraza, eta ez dago erabiltzaile soil baten eskura. Norberaren telefonoak aplikazio hori duen jakiteko ere hainbat bide daude: batzuetan aplikazioren bat instalatu behar da, eta, besteetan, instalatuta dauden aplikazioak begiratuta atzeman daiteke Carrier IQ horren presentzia .

formakuntza

Haurrak ordenagailuak programatzen

Gure haurrak ordenagailuekin hazi direla eta, natibo digitalak direla esan ohi da. Ordenagailuen erabiltzaile abilak badira ere, gehienetan ez dute joko, nabigatzaile eta zenbait aplikazio ofimatikotik harago egiten. Programak sortzen ikasteko, badira sarean haur zein helduentzat hainbat baliabide, eta, atal honetan, horietako zenbait aurkeztuko ditugu.

Haurrei programazioaren munduan sartzeko lehen ahalegin ezagunenetako bat, Massachusetts Institute of Technology (MIT) ospetsuan egin zuten, 1967. urtean: Logo deritzon programazio hizkuntza asmatu zuten han. Agindu gutxi batzuk erabiliz, ikasleak dortoka itxurako kurtsorea gidatzen du pantailan, norabide ezberdinetan pausuz pausu eramanez.

Hamarkada oso baten ikono izan zen, bestalde, ZX Spectrum. Gailu kuriosoa zen orduko hura, gaurko begiekin begiratuz gero: telebistara konektatzen zen gomazko teklatu bat eta disko gogorrik ezean, garai bateko audio zintak —kaseteak— erabiltzen zituen ordenagailuak. Gailu hark, BASIC programazio hizkuntzako editore eta interprete bat zekarren, eta BASIC hori izan zen askorentzat programazioarekin izandako lehen esperientzia.

Gaur egungo baliabideak

Logo hizkuntza oraindik ere baliagarria den arren, gaur egun, interfaze grafikoak erabiltzen dituzten zenbait aplikazio daude eskura. Aplikazio dezente dago, baina euskaraz eskainitakoak oso gutxi dira. Microsoftek, Small Basic eskaintzen du, 10-16 urteko gaztetxoentzat pentsatua, eta ingelesez soilik. Hackety Hack ere oso inguru polita da programatzen hasteko, Software Ireki moduan eskaintzen da, eta, hainbat plataformatan erabil badaiteke ere, ingelesez aurki daiteke bakarrik. Alice ere hor dago, 3D programazio inguruarekin, hori ere ingeles hutsean.

Scratch

Programazioaren hastapenak erakusteko software ezagunenetako bat da Scratch. Logo hizkuntza bezala, Massachussets-eko Teknologia Institutu ezagunean garatua da, eta, hori bai, euskaratua dago.

Mac, Windows eta Linux plataformetan instala daiteke. Scratchekin, animazio, joko musika eta beste gauza batzuk sor daitezke, eta, gauza horiek guztiak sortzen diren bitartean, gaztetxoek matematika eta konputazio oinarriak barneratzen dituzte. Scratch erabiltzaile komunitate zabala dago, eta, Scratchen webgunean bertan, norberak garatutako programa edo animazioak jar daitezke edonork ikusteko eta jaisteko moduan.

Urtero, Scratch eguna maiatzaren 21ean antolatzen dute, eta, gure artean, iaz antolatu zuten zuen lehendabizikoz Bilbon, Alondegian. Lehen jardunaldi hartan, haurrek eskolan egindako lanak erakutsi zituzten, eta bertaratutakoek scratchekin egin daitezkeen gauzak ikusteko parada izan zuten. Aurten ere Scratch Eguna antolatzekotan dira, eta http://www.scratcheguna.eu/ webgunean jaso daiteke informazioa gehiago, nahi izanez gero.

Beste baliabide batzuk

Aplikazio informatikoez gain, badira liburu eta beste baliabide batzuk haurrek programatzen ikasteko.

Liburuei dagokionez, berriki, Warren eta Carter aita-semeek Computer Programming for Kids liburua sortu dute haurrei programatzen erakusteko; oraingoz, ingelesera, alemana eta txineraz bakarrik eskuratu daiteke.

Python programazio hizkuntza darabilen doako liburu bat ere badago sarean: Snake Wrangling For Kids; frantsesez eta gaztelaniaz ere lor daiteke liburu hori.

Jostailuei dagokienez, Lego etxeak haurrak informatika, programazio eta robotikan murgiltzeko jostailu berezi bat eskaintzen du: Lego Mindstorms.