• טוקניזציה

    טוקניזציה (tokenization) הוא התהליך בו מופרד הטקסט לסגמנטים קטנים הנקראים אסימונים או בלועזית טוקנים. אסימונים אלה מסמלים את היחידות האטומיות של הטקסט ולכן קל לחשוב עליהם כמילים אך הם יכולים להיות רק חלקי מילה, אותיות בודדות או סימני פיסוק. תהליך הטוקניזציה הכרחי לשם יצירת מילון והוא מתבצע בשלב עיבוד המידע לפני תהליך הלמידה.

    המשך לקרוא