niedziela, grudnia 14, 2008

Najprostszy OCR ;-)

Będzie o najprostszym OCR, które ma każdy kto ma na swoim komputerze zainstalowane MS Office 2003 [w moim przypadku jest to firmowy MS Office 2003].
Właśnie z niego korzystałem tworząc poprzedni wpis.

Na początku potrzebować będziemy jakiegoś tekstu w postaci pliku TIF.
Akurat osadzony poniżej obrazek to PNG, ale to tylko przez to, że Blogger nie lubi TIFa ;-)


Niech nasz plik TIF nazywa się scaned003.tif, wtedy kod poniższego skryptu:

var modi = WScript.CreateObject("MODI.Document");
modi.Create("scaned003.tif");
var doc = modi.OCR();
WScript.Echo(modi.Images.Item(0).Layout.Text);


Da nam w rezultacie wynik:
17. NIat Va, JAJUZilSIa tS life-style? Flashy and lavish, nodest or spartan? Did he flaunt his pr and eutflorlty? Did h ever abuSe the pcIMP of his Position? .IpIes?
It wild be difficult to describe SAflRSl 'S life-style as Spartan, thaigh certainly In cavparIson with Other digliltarlas Of such level, his Style ,as rather fltde,t. lie had no social or t.nhIy I Fe. Ie Spent Inst Of his turn ..nrlclng in his office or participated in a variety of conference or the Party, foverlilnent and tfle military. (easiorIslly, he ,q1ld visit military bases Jring larger exercises. H. begs.. his daily Crk around 9 am. and exetudir1 a two-hourih period 4Iich he generally spent at hn, he worked until late at night not Infrequently until S am. Before the work he participated in all physleal exercises, planned for the leading cadre of the I.te. He liked to Iwlirl in these hour,, or to play volleyball. (,oe in a saute, in the afternoon, in the IWO projection roan, he would View sale kind of film trw. the lint ,ieIu would not be ShO..w, in p4Iblia ntvle theaters.
J/.MKI did not flaunt his pr and his mithority but, though he atteupted to be polite and %11 nsnhlered taerd All. fle did Ireke an Irrpres,lon of a puffed up statue. Thccept. for the above exrple of his bmw Much Val supposedly forced on him, I know of no instance In Mulch he wause tile poser of his position.


Co gdy porówna się to z poprawioną wersją:



daje "na oko" dokładność jakichś 70-80% :-)

Wydaje mi się, że wynik nie jest zły ;-)

Chcąc użyć "ręcznej" wersji, która potrafi tworzyć pliki dla MS Word, należy wejść do Menu Start i "Microsoft Office" -> "Microsoft Office Tools" -> "Microsoft Office Document Imaging".
Następnie wybieramy z menu File opcję Import i ładujemy interesujący nas obrazek:

Klikamy na ikonkę "Send Text to Word":



Wybieramy gdzie chcemy zachować wynikowy dokument:



Zgadzamy się na czasochłonną operację ;-)



Która przebiega w naszym przypadku dość szybko:




I w końcu dostajemy tekst w MS Word ;-)



Zrobione :-)


Podobne postybeta
Generał Jaruzelski wg. Kuklińskiego
Automatyczne tłumaczenie 2 - Translatica vs. Google Translate ;-)
Zmarł Arthur C. Clarke :-(
Tydzień z Google Home
Jak nauczyć się żonglować? ;-)

2 komentarze:

  1. hehe fajnie - a jakby tiff był lepszej jakości ( ten pokazany tu był trochę poszarpany - literki ) - to skuteczność byłaby lepsza?

    Tomasz Bartczak
    Racjonalny Developer

    OdpowiedzUsuń
  2. Tak, jak zauważyłem, gdy tekst był wydrukowany z Worda do Tifa to skuteczność wynosiła około 100% :-)

    OdpowiedzUsuń