Home

**به ویکی OCR فارسی خوش‌آمدید!**

این پروژه در ادامه پروژهٔ tesseract-ocr و در تلاش برای افزودن قابلیت تشخیص کامپیوتری متن‌های نوشته شده به زبان فارسی است.

آموزش

برای همکاری در این پروژه مباحث زیر را مطالعه نمائید.

مراحل ساخت فایل آموزش‌یافته
نکات مهم برای ساخت باکس و فایل آموزش‌یافته
دستورات
ابزاهای دیگر
با توجه به ساخت ابزار جعبه‌ساز نیازی به مطالعهٔ آموزش ساخت فایل باکس نیست و فقط به عنوان منبع در اینجا نگهداری می‌شود.

نوشتن آموزش کامل برای ساخت فایل traienddata + فایل‌های تست هستند
ساخت فایل convertor.py که کار اصلاح unicharset را سرعت می‌بخشد.
ساخت فایل run.bat که کلیه عملیات‌های آموزش دادن را پشت سر هم انجام می‌دهد
ساخت ابزار جعبه‌ساز
ایجاد صفحهٔ نکات مهم و تجربیات کسب شده، بعد از حدود ۱۰۰ سعی و خطا!
ساخت اولین فایل آموزش یافته که در بعضی از متن‌ها تا ۷۰٪ کیفیت خروجی دارد و برای فونت arail ساده فقط کارایی دارد.

ساخت فایل‌های آموزش یافته برای فونت‌های بیشتر مانند (BNazanin-Bzar-Bkoodak-Byaghut-Blotus-Bhoma-Btitr)
پیدا کردن موارد تشخیص اشتباه و بهبود آنها توسط http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#Dictionary_Data_(Optional) و http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3#The_last_file_(unicharambigs)

برای دانلود نسخهٔ ویندوز tesseract-ocr فایل tesseract-ocr-setup-3.02-2.exe را از وبگاه رسمی‌شان دانلود نمائید این نرم‌افزار فقط در cmd کار می‌کند و برای ساخت فایل آموزش‌یافته که در مراحل ساخت فایل آموزش‌یافته شرح داده شده‌است، کاربرد دارد همچنین نسخه tesseract 3.02 r779.zip نیز به پروژه افزوده شد.
برای استفاده از او‌سی‌آر و تست کردن نتایج در محیط گرافیکی از نسخه‌های گرافیکی مشابه GUI vietocr استفاده نمائید. http://vietocr.sourceforge.net/ یکی از بهترین نرم‌افزارهای نمایش گرافیکی برای این اوسی‌آر که در اصل برای زبان ویتنامی توسعه یافته است ولی با افزودن گلاسری قابل استفاده برای دیگر زبان‌ها می‌باشد.

در http://code.google.com/p/tesseract-ocr/wiki/AddOns فهرستی از ابزارهای مرتبط با این نرم‌افزار موجود است.