ابهام زدایی مرز جمله (به انگلیسی: Sentence boundary disambiguation، مخفف: SBD)، همچنین شناخته شده تحت عناوین جمله شکنی (به انگلیسی: Sentence breaking) یا شناسایی مرز جمله (به انگلیسی: Sentence boundary detection) مسئلهٔ تشخیص این است که در زمینه پردازش زبان طبیعی جمله ها کجا شروع می شوند و پایان می یابند.
نشانه های سجاوندی
اغلب، ابزارهای پردازش زبان طبیعی، به دلایلی لازم دارند تا ورودیشان به جملات تقسیم شده باشد؛ ولی تشخیص مرز جمله چالش برانگیز است زیرا نشانه های سجاوندی اغلب مبهمند. برای مثال در بعضی زبان ها، یک نقطه می تواند نمایان گر یک کوته نوشت، ممیز اعشاری، یک سه نقطه، یا یک آدرس ایمیل باشند – نه پایان یک جمله. در حدود ۴۷٪ نقطه ها در جنگ (یه انگلیسی: Corpus) وال استریت جورنال نشان دهنده کوته نوشت ها هستند.
نشانه های سجاوندی
اغلب، ابزارهای پردازش زبان طبیعی، به دلایلی لازم دارند تا ورودیشان به جملات تقسیم شده باشد؛ ولی تشخیص مرز جمله چالش برانگیز است زیرا نشانه های سجاوندی اغلب مبهمند. برای مثال در بعضی زبان ها، یک نقطه می تواند نمایان گر یک کوته نوشت، ممیز اعشاری، یک سه نقطه، یا یک آدرس ایمیل باشند – نه پایان یک جمله. در حدود ۴۷٪ نقطه ها در جنگ (یه انگلیسی: Corpus) وال استریت جورنال نشان دهنده کوته نوشت ها هستند.
wiki: ابهام زدایی مرز جمله