כלי זה מזהה פונטים עבריים מתוך תמונה. העלו תמונה עם טקסט עברי, סמנו את האזור הרצוי, והמערכת תציג את הפונטים הדומים ביותר מתוך מאגר של כ-593 פונטים עבריים.
כלי זה הוא נסיוני ומהווה בעיקר הוכחת יכולת (Proof of Concept).
המודל אומן על דאטה-סט סינטטי בלבד - כלומר, התמונות שעליהן למד נוצרו באופן אוטומטי ולא צולמו מהעולם האמיתי.
בפועל, יש עוד מרחב גדול לשיפור: למשל, הוספת וריאציות מגוונות לדאטה-סט כמו רקעים שונים, עיוותים, זוויות צילום, טשטוש, גדלים משתנים ועוד.
כל אלו יכולים לשפר משמעותית את דיוק הזיהוי בתנאים אמיתיים.
כדי להתרשם מהכלי, מומלץ לנסות לזהות פונט שנמצא במאגר (ניתן לחפש במאגר הפונטים בתחתית העמוד). ברוב המקרים הפונט הנכון יופיע ראשון ברשימת התוצאות, וגם אם לא - בדרך כלל הוא יופיע בין חמש התוצאות המובילות.
איך הזיהוי עובד?
כשאתם מסמנים אזור בתמונה, האזור נחתך ונשלח לשרת. שם, מודל למידה עמוקה (Deep Learning) מנתח את הצורות, העוביים והמאפיינים של האותיות ומשווה אותם לדוגמאות שעליהן אומן. המודל מחזיר את חמשת הפונטים הדומים ביותר יחד עם אחוז ביטחון (Confidence) לכל תוצאה.
ככל שאחוז הביטחון גבוה יותר, כך הסבירות שהפונט זוהה נכון גדלה. אם הפונט המקורי אינו במאגר, המודל יציג פונטים בעלי מאפיינים חזותיים דומים.
על המודל
המודל מבוסס על ארכיטקטורת ConvNeXt-Tiny שפותחה על ידי Meta (פייסבוק). ConvNeXt היא רשת נוירונים קונבולוציונית (CNN) מודרנית שמשלבת את הפשטות של רשתות קונבולוציה מסורתיות עם טכניקות שפותחו במקור עבור מודלי Transformer. התוצאה היא מודל קומפקטי אך חזק במיוחד לזיהוי תמונות.
המודל עבר תהליך של Transfer Learning (למידת העברה): תחילה אומן על מיליוני תמונות כלליות ממאגר ImageNet כדי ללמוד לזהות צורות, קווים ומרקמים, ולאחר מכן אומן מחדש (Fine-Tuned) באופן ספציפי על 593 פונטים עבריים. טכניקה זו מאפשרת למודל להגיע לדיוק גבוה גם עם כמות מוגבלת יחסית של דוגמאות לכל פונט.
לצורך הרצה מהירה, המודל הומר לפורמט ONNX (Open Neural Network Exchange) - פורמט אוניברסלי שמאפשר הסקה יעילה ללא תלות בספריות אימון כבדות.
מגבלות
הכלי מזהה פונטים רק מתוך המאגר שעליו אומן. אם הפונט בתמונה אינו במאגר, המודל עלול להחזיר תוצאות שאינן בהכרח קשורות לפונט המקורי - לפעמים יציע פונטים דומים חזותית, ולפעמים תוצאות שאינן רלוונטיות כלל.
מכיוון שהאימון נעשה על דאטה-סט סינטטי, הדיוק בתמונות מהעולם האמיתי עשוי להיות נמוך יותר.
תמונות מטושטשות, מוטות, או עם רקע מורכב עלולות לפגוע בדיוק הזיהוי.
מומלץ לסמן אזור טקסט נקי ככל האפשר, ללא לוגו או גרפיקה.
גררו תמונה לכאן, הדביקו מהלוח (Ctrl+V) או לחצו לבחירת קובץ
איך זה עובד?
1העלו תמונה עם טקסט עברי
2סמנו מילה או כמה מילים בתמונה
3קבלו את הפונטים הדומים ביותר
מומלץ להעלות טקסט נקי וברור ככל הניתן, ללא גרפיקה, לוגו או רקע מורכב.
לתוצאות מיטביות, העלו תמונה ברורה ומיושרת ככל האפשר.
המודל מזהה פונטים מתוך מאגר של כ-600 פונטים עבריים שעליהם אומן.
אם הפונט בתמונה אינו במאגר, הסבירות לזיהוי שגוי גבוהה יותר והמודל יציג פונטים דומים במאפיינים בלבד.
ככל שאחוז הביטחון גבוה יותר, כך הסבירות שזהו הפונט הנכון גדלה.
טיפ: כדי להתרשם מיכולות הכלי, נסו לזהות פונט שנמצא במאגר (ניתן לחפש למטה). ברוב המקרים הפונט הנכון יופיע ראשון ברשימת התוצאות, וגם אם לא - בדרך כלל הוא יופיע בין חמש התוצאות המובילות.
מזהה פונט...
סמנו את האזור לזיהוי
גררו מלבן על מילה או כמה מילים בתמונה.
מומלץ לבחור אזור טקסט נקי ככל הניתן, ללא גרפיקה, לוגו או רקע מורכב.
לתוצאות מיטביות, העלו תמונה ברורה ומיושרת ככל האפשר.
בחרו אזור
ניתן לסמן אזור נוסף בתמונה. במקרים מסוימים הדבר יועיל לזיהוי הפונט המדויק במקרה של זיהוי שגוי בתוצאה הראשונית.
תוצאות
התוצאות מציגות את הפונטים הדומים ביותר מתוך מאגר הפונטים שעליו אומן המודל.
ככל שאחוז הביטחון גבוה יותר, כך הסבירות שזהו הפונט הנכון גדלה.
שאר התוצאות הן פונטים בעלי מאפיינים דומים.
אם הפונט אינו במאגר, הסבירות לזיהוי שגוי גבוהה יותר.
חיפוש במאגר הפונטים
חפשו על אילו פונטים המאגר אומן (יש לחפש את השם באנגלית במדויק)