אישה נעלה נעלה נעלה: מודלי עיבוד שפה טבעית בעברית

Translated title of the contribution: Natural language processing: developing models for the Hebrew language

ענבל יהב, אביחי שריקי

Research output: Contribution to journalArticlepeer-review

Abstract

עברית שפה קשה. למחשב, כמו לאדם, וקצת יותר. בארבע השנים האחרונות מודלי עיבוד שפה טבעית נמצאים בשיא פריחתם עבור מגוון שפות ומגוון משימות מחשב, כגון תרגום, מענה על שאלות, ניתוח תחושות וכתיבת תקצירים. העברית,לעומת זאת, נותרה קצת מאחור. זה לא מאוד מפתיע מפני שקהל היעד של עברית קטן משמעותית מזה של שפות אחרות, ומבנה השפה מורכב בהרבה. למעשה העברית נחשבת ״שפה עשירה מורפולוגית״ – שפה שבה המידע המורפולוגי מקודד כחלק מהמילה, ולא מופרד ממנה כמו במרבית השפות הלטיניות. ב-2021 פותח על ידי כותבי מאמר זה מודל שפה מבוסס ברט ראשון לשפה העברית, שהיווה יריית פתיחה למחקרים רבים בתחום. במאמר זה נציג את האתגרים בפיתוח מודל השפה העברית, נסקור את המודלים הקיימים והמאמצים המתמשכים לפיתוח כלים ומודלים חדשים, ולאן עוד אפשר וכדאי לשאוף. בנספח למאמר נציג הדרכה קצרה כיצד ניתן, ללא ידע מקדים עשיר, להשתמש במודל השפה בעברית לזיהוי תחושות מתוך שפה כתובה. המאמר מתייחס גם למודל שפה משפטית בעברית.
Translated title of the contributionNatural language processing: developing models for the Hebrew language
Original languageHebrew
Pages (from-to)127-137
Number of pages11
Journalחידושים בניהול
Volume12
StatePublished - 2023

IHP Publications

  • ihp
  • Emotions
  • Hebrew language
  • Language and languages
  • Law -- Language
  • Mathematical models
  • Natural language processing (Computer science)
  • Probabilities
  • Word (Linguistics)

Cite this