{
    "metadata": {
        "dataset_id": "shahroodut-thesis",
        "record_id": "Q179",
        "title": "آنالیز قالب‌بندی اسناد فارسی",
        "publisher": "دانشگاه صنعتی شاهرود",
        "owner": "کتابخانه مرکزی دانشگاه صنعتی شاهرود",
        "license": "CC-BY-4.0",
        "license_url": "https://creativecommons.org/licenses/by/4.0/",
        "license_text": "استفاده، بازنشر، تحلیل، پردازش و بهره برداری پژوهشی، آموزشی و صنعتی با ذکر منبع دانشگاه صنعتی شاهرود مجاز است.",
        "publication_date": "1400",
        "last_update": "2026-06-25",
        "language": "fa",
        "format": "application/json",
        "contact": "thesis@shahroodut.ac.ir",
        "access": {
            "fulltext_available": "true",
            "public_access": "true"
        }
    },
    "data": {
        "thesis_id": "Q179",
        "title": "آنالیز قالب‌بندی اسناد فارسی",
        "degree": null,
        "faculty": "مهندسی کامپیوتر ",
        "year": 1400,
        "authors": [
            {
                "name": "امیر رضا فاتح",
                "role": "پدیدآور اصلی"
            },
            {
                "name": "محسن رضوانی",
                "role": "استاد راهنما"
            },
            {
                "name": "علیرضا تجری",
                "role": "استاد مشاور"
            }
        ],
        "keywords": [
            "آنالیز قالب‌بندی سند",
            "تشخیص خطوط",
            "تقسیم‌بندی متون",
            "تقسیم‌بندی تصاویر",
            "اندازه قلم",
            "رای‌گیری"
        ],
        "abstract": "آنالیز قالب‌بندی اسناد یکی از گام‌های کلیدی در روند تبدیل تصویر هر سند به متن قابل ویرایش است. جداسازی مناطق متنی و غیرمتنی درون تصویر یکی از تاثیرگذارترین پیش‌پردازش‌های ممکن در سیستم‌های نویسه‌خوان نوری است. از دیگر پیش‌پردازش‌های مهم در این سیستم‌ها، استخراج خطوط حاوی متن از درون مناطق متنی است. عدم تشخیص درست مناطق حاوی متن و به‌تبع آن عدم تشخیص صحیح مختصات خطوط، تمامی مراحل بعدی یک سیستم نویسه‌خوان نوری را دچار اختلال می‌کند. مشکلاتی همچون انحنای خطوط، کج بودن تصویر، وجود اعراب و نقاط زیاد در زبان فارسی و عربی، نزدیک بودن خطوط درون تصویر و وجود تصاویر چند ستونه از چالش‌های مهم در آنالیز قالب‌بندی اسناد است. در این تحقیق به تمام این چالش‌ها توجه شده است و سعی در رفع آن‌ها شده است تا روشی نوین برای آنالیز قالب‌بندی اسناد فارسی ارائه شود. روش پیشنهادی، در گام اول، مناطق متنی را از مناطق غیرمتنی جدا می‌سازد. برای این کار، از چندین روش مختلف و کارآمد مبتنی بر یادگیری عمیق بهره گرفته شده و با استفاده از سیستم رای‌گیری در میان آن‌ها، محتمل‌ترین مناطق متنی تصویر استخراج می‌شود. در گام دوم، می‌بایست خطوط حاوی متن از درون مناطق متنی استخراج شوند. در این گام، روش پیشنهادی با بکارگیری فرآیندی بر پایه اندازه قلم متن، خطوط حاوی متن استخراج می‌شود. تا کنون روش استخراج خطوط بر مبنای اندازه قلم، ارائه نشده است. روش پیشنهادی بر روی مجموعه دادگانی از تصاویر با بیش از 2000 صفحه از تصاویر اسکن شده آزمون شده است که در دو بخش تشخیص مناطق حاوی متن و استخراج خطوط به ترتیب به دقت‌های 98.04% و 99.42% رسیده است.",
        "repository": "کتابخانه مرکزی دانشگاه صنعتی شاهرود",
        "note": "حقوق مادی و معنوی متعلق به دانشگاه صنعتی شاهرود می باشد.",
        "download_url": "https://shahroodut.ac.ir/fa/thesis/files/somefiles/sf_Q179.pdf"
    },
    "dictionary": {
        "thesis_id": "شناسه پایان نامه",
        "title": "عنوان پایان نامه",
        "degree": "مقطع تحصیلی",
        "faculty": "دانشکده",
        "year": "سال دفاع",
        "authors": "پدیدآورندگان",
        "keywords": "کلیدواژه ها",
        "abstract": "چکیده",
        "repository": "محل نگهداری",
        "note": "یادداشت",
        "download_url": "آدرس فایل پایان نامه"
    }
}