Optinen merkintunnistus (OCR) viittaa ohjelmistoon, joka luo painetusta, kirjoitetusta tai käsinkirjoitetusta asiakirjasta digitaalisen version, jonka tietokoneet voivat lukea ilman, että tekstiä tarvitsee kirjoittaa tai syöttää manuaalisesti. Tekstintunnistusta käytetään yleensä skannatuissa PDF-muodossa olevissa asiakirjoissa, mutta se voi myös luoda tietokoneella luettavan version kuvatiedoston tekstistä.
Mitä OCR on
OCR, jota kutsutaan myös tekstintunnistukseksi, on ohjelmistotekniikka, joka muuntaa merkit, kuten numerot, kirjaimet ja välimerkit (kutsutaan myös kuvioiksi) painetuista tai kirjoitetuista asiakirjoista sähköiseen muotoon, joka on helpompi tunnistaa ja lukea tietokoneiden ja muita ohjelmistoja. Jotkut tekstintunnistusohjelmat tekevät tämän, kun asiakirja skannataan tai valokuvataan digitaalikameralla, ja toiset voivat soveltaa tätä prosessia asiakirjoihin, jotka on aiemmin skannattu tai kuvattu ilman tekstintunnistusta. OCR:n avulla käyttäjät voivat etsiä PDF-dokumenteista, muokata tekstiä ja muotoilla asiakirjoja uudelleen.
Getty Images
Mihin OCR:ää käytetään?
Nopeassa päivittäisessä skannauksessa tekstintunnistus ei välttämättä ole iso juttu. Jos skannaat paljon, pystyt etsimään PDF-tiedostoja löytääksesi juuri tarvitsemasi asiakirjan, mikä säästää melkoisesti aikaa ja tekee skanneriohjelmasi tekstintunnistustoiminnoista tärkeämpiä. Tässä on joitain muita asioita, joissa tekstintunnistus auttaa:
- Automaattinen tietojenkäsittely ja tietojen syöttö (Esimerkki: Työnhakijoiden seurantajärjestelmät ansioluetteloita varten).
- Skannattujen kirjojen tekeminen haettavaksi.
- Käsin kirjoitettujen skannausten muuntaminen tietokoneella luettavaksi tekstiksi.
- Tee asiakirjoista käyttökelpoisempia näkövammaisia käyttäjiä avustavien lukuohjelmien avulla.
- Säilyttää historiallisia asiakirjoja ja sanomalehtiä ja tehdä niistä haettavia.
- Tietojen poiminta ja siirto kirjanpitoohjelmiin (Esimerkki: Kuitit ja laskut).
- Asiakirjojen indeksointi hakukoneiden käyttöön.
- Kuljettajan rekisterikilpien tunnistus nopeuskamera- ja punavalokameraohjelmistolla.
- Puhesyntetisaattorit ihmisille, jotka eivät puhu – teoreettinen fyysikko Stephen Hawking on ehkä tunnetuin puhesyntetisaattoriohjelman käyttäjä.
Bottom Line
Miksi et vain ota kuvaa, eikö niin? Koska et voisi muokata mitään tai etsiä tekstiä, koska se olisi vain kuva. Asiakirjan skannaus ja OCR-ohjelmiston käyttäminen voi muuttaa tiedoston sellaiseksi, jota voit muokata ja voit etsiä.
OCR:n historia
Vaikka tekstintunnistuksen varhaisin käyttö on peräisin vuodelta 1914, tekstintunnistustekniikkaan liittyvien teknologioiden laaja kehitys ja käyttö alkoivat toden teolla 1950-luvulla, erityisesti luomalla hyvin yksinkertaistettuja fontteja, jotka oli helpompi muuntaa digitaalisiksi. luettavaa tekstiä. Ensimmäisen näistä yksinkertaistetuista fonteista loi David Shepard, ja se tunnetaan yleisesti nimellä OCR-7B. OCR-7B on edelleen käytössä finanssialalla luotto- ja pankkikorteissa käytettävän vakiofontin kanssa. 1960-luvulla useiden maiden postipalvelut alkoivat käyttää OCR-tekniikkaa postin lajittelun huomattavaan nopeuttamiseen, mukaan lukien Yhdysvallat, Iso-Britannia, Kanada ja Saksa. OCR on edelleen ydintekniikka, jota käytetään postin lajitteluun postipalveluja varten kaikkialla maailmassa. Vuonna 2000 keskeistä tietämystä OCR-tekniikan rajoista ja ominaisuuksista käytettiin kehittämään CAPTCHA-ohjelmia, joita käytetään estämään botteja ja roskapostittajia.
OCR on vuosikymmenten aikana kasvanut tarkemmaksi ja kehittyneempään liittyvien teknologia-alueiden, kuten tekoälyn, koneoppimisen ja tietokonenäön, edistymisen ansiosta. Nykyään OCR-ohjelmisto käyttää hahmontunnistusta, ominaisuuksien tunnistusta ja tekstinlouhintaa asiakirjojen muuntamiseen nopeammin ja tarkemmin kuin koskaan ennen.
UKK
Kuinka skannaan asiakirjoja puhelimella tai tabletilla?
IOS:ssä avaa Notes-sovellus ja luo uusi muistiinpano. Avaa kamera ja napauta sitten Scan Documents. Avaa Androidissa Google Drive ja valitse Plus (+), napauta sitten Scan skannataksesi asiakirja puhelimellasi.
Kuinka käytän tekstintunnistusta Adobe Acrobatissa?
Avaa skannatun kuvan sisältävä PDF-tiedosto ja valitse sitten Tools > Muokkaa PDF-tiedostoa. Acrobat käyttää automaattisesti tekstintunnistusta, jotta voit muokata tekstiä. Valitse vain, missä haluat tehdä muokkauksia, ja ala kirjoittaa.
Mitä eroa on OCR:llä ja OMR:llä?
Optical Mark Recognition (OMR) on ohjelmisto, joka havaitsee merkit paperilla, tyypillisesti kuplaarkilla. OMR:ää käytetään kokeiden, kyselyiden, kyselyiden ja jopa vaalien tulosten käsittelyyn. Toisin kuin OCR, OMR ei voi tulkita sivun merkkejä, vaan vain varmistaa, että merkit ovat siellä.