עכשיו אפשר להשתמש ב-Intl.Segmenter
לפילוח טקסט רגיש ללוקאל כדי לפצל מחרוזת למילים, למשפטים או לגרפים.
בשפות רבות שאינן לטיניות, כמו סינית ויפנית, אין רווחים כדי להפריד בין מילים. לכן, שימוש בשיטה split()
של JavaScript באמצעות רווחים לבנים על מנת לפצל טקסט למילים, יחזיר תוצאות שגויות.
כשיוצרים אובייקט Intl.Segmenter
חדש עם ה-constructor של Intl.segmenter()
, מעבירים locale
ואפשרויות כולל granularity
, שיכולות לקבל את הערכים "grapheme"
, "word"
או "sentence"
. הדוגמה הבאה יוצרת אובייקט Intl.Segmenter
חדש ליפנית, שמפצל על מילים.
const segmenter = new Intl.Segmenter('ja-JP', { granularity: 'word' });
קריאה ל-method segment()
באובייקט Intl.Segmenter
עם מחרוזת טקסט מחזירה ערך חוזר:
const segments = segmenter.segment(str);
console.table(Array.from(segments));
כדי לקבל הדרכה מצוינת על אופן השימוש בתכונה הזו, קראו את המאמר שימוש ב-Intl.Segmenter API בבלוג של Polypane.
לפילוח טקסט בינלאומי עם Intl.Segmenter ב-JavaScript יש עוד דוגמאות, כולל הנחיות לשימוש ב-Intl.Segmenter
עם אמוג'י.