Difference between revisions of "Tibetan OCR"
(Google Docs reads wood block pechas!) |
m (→Google docs supports Tibetan OCR) |
||
Line 5: | Line 5: | ||
[[File:woodblock.png]] | [[File:woodblock.png]] | ||
− | After "Open with Google docs": | + | After "Open with [https://docs.google.com/ Google docs]": |
<font size=5>zབས་དང་བརྒྱུད་འདེབས་སབསྡུས་སྐབས་བསྟན་སྔོན་དུ་འགྲོ་བས། དངོས་གཞི་ལ་བདག་བུམ་གཉིས་ལས། དང་པོ་ལའང་སྐྱབས་སུ་འགྲོ་བ་ནི། སྤྱོད་རྣམ་དག་དྭངས་མའི་ ། <br> | <font size=5>zབས་དང་བརྒྱུད་འདེབས་སབསྡུས་སྐབས་བསྟན་སྔོན་དུ་འགྲོ་བས། དངོས་གཞི་ལ་བདག་བུམ་གཉིས་ལས། དང་པོ་ལའང་སྐྱབས་སུ་འགྲོ་བ་ནི། སྤྱོད་རྣམ་དག་དྭངས་མའི་ ། <br> | ||
Line 17: | Line 17: | ||
While there are a number of errors (some artefacts generated by the left caption, some Sanskrit weaknesses, | While there are a number of errors (some artefacts generated by the left caption, some Sanskrit weaknesses, | ||
this is some remarkable progress. | this is some remarkable progress. | ||
− | |||
==Namsel Ocr== | ==Namsel Ocr== |
Revision as of 11:53, 21 November 2019
Contents
Google docs supports Tibetan OCR
The easiest method for Tibetan OCR is simply to open a PDF with Tibetan in Google Docs. Wood block PDFs are supported!
After "Open with Google docs":
zབས་དང་བརྒྱུད་འདེབས་སབསྡུས་སྐབས་བསྟན་སྔོན་དུ་འགྲོ་བས། དངོས་གཞི་ལ་བདག་བུམ་གཉིས་ལས། དང་པོ་ལའང་སྐྱབས་སུ་འགྲོ་བ་ནི། སྤྱོད་རྣམ་དག་དྭངས་མའི་ །
eg སྐུ།ཉོན་མོངས་རྣམ་དག་ཡེ་ཤེས་ལྔ།, །སྐྱགསུམ་མཛད་པ་མཐར་ཕྱིན་པའི། །དཀོན་མཆོག་གསུམ་ལ་རྟོགས་པས་འདུད། །ཅེས་ལན་གསུམ། སེམས་
བསྐྱོད་ཐུན་མོང་བ་ནི། བདག་དང་མཐའ་ཡས་སེམས་ཅན་རྣམས། །ཡེ་ནསསངས་རྒྱས་ཡིན་པ་ལ། །རྟོག་པའི་དབདགིས་འབོརབ་ལས། །བྱང་ཆུབ།ཚོག l
ཏུསེམས་བསྐྱེདདོ། །ལན་གསུམ། ཁྱད་པར་གྱིསེམས་བསྐྱེད། བསམདུ་མེད་དེ་སེམས་ཉིད་ནམ་མཁའཚེ། །སེམས་ཉིདནམ་མཁའ་བསམ་པ་ཀུན་དང་་་་་་
བྲལ༑ །བསམ་དུ་མེད་པའི་སེམས་ཉིད་ནམ་མཁའ་ནི། །ནམ་མཁའ་མི་དམིགས་པ་ཡང་དམིགས་སུམེད། །ཨོཾ་དྷརྨ་དྷ་ཏུ་ཛཱན་བཛྲས་བུ་ཝ་ཨཏྨ་རྟེན་
དྲིལ་བཅས་སྙིང་ཁར་དམགྱི་བཅའ། མཆན། ཀོཉཧཾ། ཞེས་མི་དམིགས་པའི་དང་དུདལགཅིག་བཞག་ལ། སླར་རིག་གདངས་ཆུ་ལས་ཉ་འཕར་བ་བཞིན་དུ། ྋསོད་པའི་དད་ལས་ཧཱུཾ་ཧཱུཾ་
While there are a number of errors (some artefacts generated by the left caption, some Sanskrit weaknesses, this is some remarkable progress.
Namsel Ocr
Available for Windows, Mac and Linux and now on Docker
Work great on Docker: Docker Namsel Ocr For the main version: Namsel Ocr
Sources are available on the Github page https://github.com/thubtenrigzin/namsel-ocr for the main project and https://github.com/thubtenrigzin/docker-namsel-ocr
OCR at dharmabook.ru
dharmabook.ru offers a free OCR service, uploaded texts are converted within a few days:
This service seems to work well with wood-block pechas.
See Buddhist Library Project for more information about the Project
Tesseract 4 alpha (by Google, with neural networks)
Note: At the time of writing (2017-04), tesseract 4 is still in early development, and mostly supports linux. Technical computer skills are required for usage.
Tesseract 4.0 alpha supports OCR (optical character recognition) for Tibetan.
The new version adds a new OCR engine based on LSTM neural networks. It initially works (well) on x86/Linux. Model data for 101 languages (including Tibetan and Dzongkha) is available in the tessdata repository.
Installation
Refer to the Tesseract repository for detailed installation instructions.
In addition to tesseract, you will need trained language sets.
Language training sets
Results
Recognition works quite well for printed Tibetan texts, however, the recognition rate for wood-block pechas is still poor.
History
A good overview of different endeavors in Tibetan OCR is given at the Namsel project: