|
عنوان
|
شناسایی فاکتورهای سبک زندگی در متون زیستی پزشکی با استفاده از مدل های زبانی بزرگ
|
|
نوع پژوهش
|
مقاله چاپ شده
|
|
کلیدواژهها
|
متن کاوی، شناسایی فاکتورهای سبک زندگی، مدل های زبانی بزرگ، NER، یادگیری ماشین
|
|
چکیده
|
شناسایی موجودیت های نام گذاری شده (NER) در متون علمی، یکی از چالش های کلیدی در پردازش زبان طبیعی است. روش های سنتی NER، مانند مدل های مبتنی بر یادگیری ماشین نظارت شده، به حجم بالایی از داده های برچسب گذاری شده نیاز دارند که تهیه آن ها بسیار زمان بر و پرهزینه است. در مقابل، مدل های زبانی بزرگ (LLMs) ، با کمترین نیاز به داده های برچسب گذاری شده، فرصتی برای کاربردهای پر هزینه قبلی فراهم آورده اند. شناسایی عوامل سبک زندگی در میلیون ها مقاله علمی گذشته، یکی از این کاربردهای مغفول مانده است که می تواند موجب سازماندهی دانش موجود در زمینه ارتباط بین بیماریها و سبک زندگی شده و زمینه را برای استفاده از چنین پایگاه دانشی در سیاست های سلامت عمومی و یا حتی درمان های پزشکی فراهم آورد. در این مقاله برای نخستین بار یک راهکار سه مرحله ای مبتنی بر LLM به نام LSF-NER توسعه داده شده است که فاکتورهای سبک زندگی را از متون زیستی پزشکی استخراج میکند. ارزیابی نتایج آزمایشات نشان می دهد که مدل آموزش دیده در این تحقیق، علی رغم استفاده از منابع محاسباتی کمتر، عملکردی قابل مقایسه و امیدوارکننده نسبت به مدل هایی مانند GPT-4o از خود نشان داده است و نوید امکانپذیر بودن ادامه تحقیقات بدون نیاز به زیرساخت های محاسباتی پر هزینه را میدهد.
|
|
پژوهشگران
|
اسماعیل نورانی (نفر اول)
|