{
    "metadata": {
        "dataset_id": "shahroodut-thesis",
        "record_id": "TK296",
        "title": "شناسایی کلمات فارسی تایپی در تصاویر درجه تفکیک پایین",
        "publisher": "دانشگاه صنعتی شاهرود",
        "owner": "کتابخانه مرکزی دانشگاه صنعتی شاهرود",
        "license": "CC-BY-4.0",
        "license_url": "https://creativecommons.org/licenses/by/4.0/",
        "license_text": "استفاده، بازنشر، تحلیل، پردازش و بهره برداری پژوهشی، آموزشی و صنعتی با ذکر منبع دانشگاه صنعتی شاهرود مجاز است.",
        "publication_date": "1392",
        "last_update": "2026-07-04",
        "language": "fa",
        "format": "application/json",
        "contact": "thesis@shahroodut.ac.ir",
        "access": {
            "fulltext_available": "true",
            "public_access": "true"
        }
    },
    "data": {
        "thesis_id": "TK296",
        "title": "شناسایی کلمات فارسی تایپی در تصاویر درجه تفکیک پایین",
        "degree": null,
        "faculty": "مهندسی برق",
        "year": 1392,
        "authors": [
            {
                "name": "حامد عرب یار محمدی",
                "role": "پدیدآور اصلی"
            },
            {
                "name": "علیرضا احمدی فرد",
                "role": "استاد راهنما"
            },
            {
                "name": "حسین خسروی",
                "role": "استاد مشاور"
            }
        ],
        "keywords": [
            "بازشناسی زیرکلمه",
            "شکل کلی زیرکلمه",
            "تصاویر کم کیفیت",
            "کاهش فرهنگ لغت",
            "بلوک میانگین",
            "k میانگین",
            "k نزدیک‌ترین همسایه",
            "الگوریتم POSS."
        ],
        "abstract": "برای بازشناسی زیرکلمات فارسی سه رویکرد مبتنی بر جداسازی به حروف، مبتنی بر شکل کلی زیرکلمه و ترکیبی از این دو وجود دارد. در بسیاری از سازمان‌ها، تصاویر نامه‌ها با درجـه تفکـیک 150 نقطه بر اینچ  و کمتر ذخیره می‌شوند. متنی با این درجه تفکـیک برای خواندن توسط کاربر انسانی مناسب است اما برای بازشناسی توسط سیستم شناسایی نوری کلمات این درجه تفکیک بسیار کم به نظر می‌رسد. حتی سیستم‌های شناسایی نوری کلمات لاتین هم غالبا برای 300 نقطه بر اینچ، توسعه یافته‌اند. در درجـه‌ی تفکـیک پایین‌، جـداسازی به سخـتی امکان پذیر است و باید از روش‌هایی مانند شکل کلی استفاده نمود. در این پایان‌ نامه به بررسی و بازشناسی زیرکلمات فارسی با درجـه تفکـیک 96 نقطه بر اینچ می‌پردازیم که برای این منظور از شکل کلی زیرکلمات برای بازشناسی آنها بهره برده‌ایم.\r\nسیستمی که در اینجا برای بازشناسی زیرکلمات فارسی ارائه شده مبتنی بر یک روش سه مرحله‌ای است‌. در مرحله نخست به کمک خوشه بندی، دامنه‌ی جستجوی تصاویر زیرکلمات موجود در فرهنگ لغت کاهش داده شده که این کار نه تنـها سرعت سیستم را بالا می‌برد بلکه دقت را نیز افزایش می‌دهد، در مرحله دوم بازشناسی، با استفاده از یک طبقه‌بند، 4 خوشه‌ی نزدیک به زیرکلمه‌ی آزمون ورودی تشخیص داده می‌شود و پس از آن با جستجو در میان آن خوشه‌های هدف، 10 نزدیک‌ترین زیرکلمات موجود در فرهنگ لغت، به زیرکلمه‌ی آزمون را می‌یابیم، این روند برای تمام زیرکلمات یک کلمه تکرار شده سپس در مرحله‌ی سوم با استفاده از روشِ رخدادهای محتمل برای توالی زیرکلمات، کلمه‌ی آزمون تشخیص داده می‌شود.\r\nدقت این الگوریتم بازشناسی بسیار مناسب تخمین زده می‌شود و قابلیت بازشناسی 01/98 % در کلماتی که از بیش از یک زیرکلمه تشکیل شده‌اند را داراست و کلماتی که صرفاً، تک زیرکلمه‌ای اند را با دقت 53/82 % بازشناسی می‌کند.",
        "repository": "کتابخانه مرکزی دانشگاه صنعتی شاهرود",
        "note": "حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.",
        "download_url": "https://shahroodut.ac.ir/fa/thesis/files/somefiles/sf_TK296.pdf"
    },
    "dictionary": {
        "thesis_id": "شناسه پایان نامه",
        "title": "عنوان پایان نامه",
        "degree": "مقطع تحصیلی",
        "faculty": "دانشکده",
        "year": "سال دفاع",
        "authors": "پدیدآورندگان",
        "keywords": "کلیدواژه ها",
        "abstract": "چکیده",
        "repository": "محل نگهداری",
        "note": "یادداشت",
        "download_url": "آدرس فایل پایان نامه"
    }
}