Abstract
עברית שפה קשה. למחשב, כמו לאדם, וקצת יותר. בארבע השנים האחרונות מודלי עיבוד שפה טבעית נמצאים בשיא פריחתם עבור מגוון שפות ומגוון משימות מחשב, כגון תרגום, מענה על שאלות, ניתוח תחושות וכתיבת תקצירים. העברית,לעומת זאת, נותרה קצת מאחור. זה לא מאוד מפתיע מפני שקהל היעד של עברית קטן משמעותית מזה של שפות אחרות, ומבנה השפה מורכב בהרבה. למעשה העברית נחשבת ״שפה עשירה מורפולוגית״ – שפה שבה המידע המורפולוגי מקודד כחלק מהמילה, ולא מופרד ממנה כמו במרבית השפות הלטיניות. ב-2021 פותח על ידי כותבי מאמר זה מודל שפה מבוסס ברט ראשון לשפה העברית, שהיווה יריית פתיחה למחקרים רבים בתחום. במאמר זה נציג את האתגרים בפיתוח מודל השפה העברית, נסקור את המודלים הקיימים והמאמצים המתמשכים לפיתוח כלים ומודלים חדשים, ולאן עוד אפשר וכדאי לשאוף. בנספח למאמר נציג הדרכה קצרה כיצד ניתן, ללא ידע מקדים עשיר, להשתמש במודל השפה בעברית לזיהוי תחושות מתוך שפה כתובה. המאמר מתייחס גם למודל שפה משפטית בעברית.
Translated title of the contribution | Natural language processing: developing models for the Hebrew language |
---|---|
Original language | Hebrew |
Pages (from-to) | 127-137 |
Number of pages | 11 |
Journal | חידושים בניהול |
Volume | 12 |
State | Published - 2023 |
IHP Publications
- ihp
- Emotions
- Hebrew language
- Language and languages
- Law -- Language
- Mathematical models
- Natural language processing (Computer science)
- Probabilities
- Word (Linguistics)