forked from reza1615/PersianOcr
-
Notifications
You must be signed in to change notification settings - Fork 0
Home
reza1615 edited this page Nov 5, 2012
·
56 revisions
**به ویکی OCR فارسی خوشآمدید!**
این پروژه در ادامه پروژهٔ tesseract-ocr و در تلاش برای افزودن قابلیت تشخیص کامپیوتری متنهای نوشته شده به زبان فارسی است.
برای همکاری در این پروژه مباحث زیر را مطالعه نمائید.
-
نکات مهم برای ساخت باکس و فایل آموزشیافته
-
با توجه به ساخت ابزار جعبهساز نیازی به مطالعهٔ آموزش ساخت فایل باکس نیست و فقط به عنوان منبع در اینجا نگهداری میشود.
- نوشتن آموزش کامل برای ساخت فایل traienddata + فایلهای تست هستند
- ساخت فایل convertor.py که کار اصلاح unicharset را سرعت میبخشد.
- ساخت فایل run.bat که کلیه عملیاتهای آموزش دادن را پشت سر هم انجام میدهد
- ساخت ابزار جعبهساز
- ایجاد صفحهٔ نکات مهم و تجربیات کسب شده، بعد از حدود ۱۰۰ سعی و خطا!
- ساخت اولین فایل آموزش یافته که در بعضی از متنها تا ۷۰٪ کیفیت خروجی دارد و برای فونت arail ساده فقط کارایی دارد.
-
ساخت فایلهای آموزش یافته برای فونتهای بیشتر مانند (BNazanin-Bzar-Bkoodak-Byaghut-Blotus-Bhoma-Btitr)
-
پیدا کردن موارد تشخیص اشتباه و بهبود آنها توسط http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Dictionary_Data_(Optional) و http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#The_last_file_(unicharambigs)
- برای دانلود نسخهٔ ویندوز tesseract-ocr فایل tesseract-ocr-setup-3.02-2.exe را از وبگاه رسمیشان دانلود نمائید این نرمافزار فقط در cmd کار میکند و برای ساخت فایل آموزشیافته که در مراحل ساخت فایل آموزشیافته شرح داده شدهاست، کاربرد دارد همچنین نسخه tesseract 3.02 r779.zip نیز به پروژه افزوده شد.
- برای استفاده از اوسیآر و تست کردن نتایج در محیط گرافیکی از نسخههای گرافیکی مشابه GUI vietocr استفاده نمائید. http://vietocr.sourceforge.net/ یکی از بهترین نرمافزارهای نمایش گرافیکی برای این اوسیآر که در اصل برای زبان ویتنامی توسعه یافته است ولی با افزودن گلاسری قابل استفاده برای دیگر زبانها میباشد.
- در http://code.google.com/p/tesseract-ocr/wiki/AddOns فهرستی از ابزارهای مرتبط با این نرمافزار موجود است.