Skip to content
reza1615 edited this page Nov 5, 2012 · 56 revisions
**به ویکی OCR فارسی خوش‌آمدید!**

این پروژه در ادامه پروژهٔ tesseract-ocr و در تلاش برای افزودن قابلیت تشخیص کامپیوتری متن‌های نوشته شده به زبان فارسی است.

آموزش

برای همکاری در این پروژه مباحث زیر را مطالعه نمائید.

کارهای انجام شده

  • نوشتن آموزش کامل برای ساخت فایل traienddata + فایل‌های تست هستند
  • ساخت فایل convertor.py که کار اصلاح unicharset را سرعت می‌بخشد.
  • ساخت فایل run.bat که کلیه عملیات‌های آموزش دادن را پشت سر هم انجام می‌دهد
  • ساخت ابزار جعبه‌ساز
  • ایجاد صفحهٔ نکات مهم و تجربیات کسب شده، بعد از حدود ۱۰۰ سعی و خطا!
  • ساخت اولین فایل آموزش یافته که در بعضی از متن‌ها تا ۷۰٪ کیفیت خروجی دارد و برای فونت arail ساده فقط کارایی دارد.

کارهایی که باید انجام شود

نرم‌افزار اوسی‌آر

  • برای دانلود نسخهٔ ویندوز tesseract-ocr فایل tesseract-ocr-setup-3.02-2.exe را از وبگاه رسمی‌شان دانلود نمائید این نرم‌افزار فقط در cmd کار می‌کند و برای ساخت فایل آموزش‌یافته که در مراحل ساخت فایل آموزش‌یافته شرح داده شده‌است، کاربرد دارد همچنین نسخه tesseract 3.02 r779.zip نیز به پروژه افزوده شد.
  • برای استفاده از او‌سی‌آر و تست کردن نتایج در محیط گرافیکی از نسخه‌های گرافیکی مشابه GUI vietocr استفاده نمائید. http://vietocr.sourceforge.net/ یکی از بهترین نرم‌افزارهای نمایش گرافیکی برای این اوسی‌آر که در اصل برای زبان ویتنامی توسعه یافته است ولی با افزودن گلاسری قابل استفاده برای دیگر زبان‌ها می‌باشد.

پروژه‌های مشابه