המכון לחדשנות טכנולוגית מכריז על השקת NOOR

Noor, the world's largest Arabic NLP Model - AI Cross-Center Unit, Technology Innovation Institute, Photo: AETOSWire

מודל עיבוד השפה הטבעית בערבית הגדול בעולם

*המודל הוא החזק ביותר בשפה הערבית עד כה עם 10 מיליארד משתנים.

*כולל יישומים בתחומים כמו תקצור אוטומטי, צ’אטבוטים, שיווק מותאם אישית.

המכון לחדשנות טכנולוגית – (Technology Innovation Institute (TII, מרכז מחקר עולמי ועמוד תווך בתחום המחקר היישומי של מועצת המחקר הטכנולוגי המתקדם של אבו דאבי (ATRC), הודיע ​​היום על השקת NOOR, מודל עיבוד השפה הטבעית (NLP) בערבית הגדול בעולם עד כה.

צוות החוקרים המתקדם ומומחי הבינה המלאכותית (AI) של TII איחד כוחות עם LightOn, חברת טכנולוגיה המשחררת לשימוש בינת מכונות בקנה מידה גדול במיוחד לעסקים, כדי לשנות את מודל עיבוד השפה הטבעית הערבי. למודל NOOR יש את היכולת לבצע משימות מעבר לתחום השפה – ומציע נתונים באיכות גבוהה מקצה לקצה, כולל סריקה, סינון ואצירה בקנה מידה גדול. המודל מאפשר הכשרה והגשה מבוזרת בקנה מידה גדול במיוחד – כדי לספק יישומים המציעים התמחות לטובת להסקת מסקנות ומודלים יעילים.

ד”ר ריי או. ג’ונסון, מנכ”ל, TII ו-ASPIRE, אמר: “עם הפיתוח הזה, אנו נמצאים היטב על המסלול כדי לשפר את יכולות המחקר והאישורים שלנו, כמו גם להעלאת קרנה של אבו דאבי ואיחוד האמירויות כאקו סיסטם מחקרי רציני. צוותי המומחים שלנו הוכיחו שוב שאזור זה יכול להשיג תוצאות מחקר ופיתוח פורצות דרך כדי להשפיע על העולם”.

ד”ר אבטסאם אלמאזרואי, מנהל, יחידת AI Cross-Center ב-TII, אמר: “מודלים גדולים של שפה כבשו בסערה את עולם עיבוד השפה הטבעית ואנו גאים להציג מודל חדשני זה עם 10 מיליארד משתנים – מודל NLP הערבי הגדול בעולם. מערך הנתונים הערבי הגדול והייחודי שנאסף כדי להכשיר את המודל הוא תוצאה של חודשים של עבודה קשה שכללה איסוף, גריטה וסינון של מקורות מגוונים. תודה מיוחדת לכל הצוות שעבד על הפרויקט הזה כדי להפוך את NOORלמודל החיפוש בערבית לאקדמאים ועסקים בכל מקום”.

פרופ’ מרוואן דבה, חוקר ראשי, מרכז המחקר למדע דיגיטלי ויחידת AI Cross-Center, TII, אמר לגבי ההשקה הקרובה: “עם NOOR, TII הרחיב את היקף המודל הסטנדרטי הערבי המודרני על ידי מינוף הידע בתחום מודלי השפה הגדולים לבניית מומחיות חוצת תחומים מתקדמת בדור החדש הזה של מחקר הבינה המלאכותית”.

כדי לאצור את ערכות הנתונים הערביות הגדולות בעולם, ערכת הנתונים הייחודית של NOOR, המונה יותר מ-30 מיליארד מילים, משלבת נתוני אינטרנט עם ספרים, שירה, מאמרי חדשות ומידע טכני כדי להרחיב באופן משמעותי את תחולת המודל.

ד”ר אבטסאם אלמאזרואי אמר שמודל NOOR מבוסס על ארכיטקטורת שינוי או לימוד מכונה. מודל הפיענוח בלבד שלו דומה במבנהו ל-GPT-3 והוא מתוכנת להתמודד עם משימות יצירתיות עם ארכיטקטורה משודרגת כדי לשקף את ההתפתחויות האחרונות בעולם למידת המכונה, כולל שיפורים כגון הטמעות מיקום טובות יותר.  

כדי להבטיח איכות בקנה מידה גדול בערכת הנתונים של NOOR, צוות TII תכנן צינור סינון אוטומטי המבוסס על טכניקות לימוד מכונה. כלים אלו מזהים מלל הרלוונטי להפניות איכותיות ומגנים על המודל מחשיפה לספאם.

NOOR עבר אימון באמצעות מחשוב בעל ביצועים גבוהים עם 128 מעבדים גרפיים מסוג A100, והוא ממנף גישת מקבילית תלת-ממדית מתקדמת כדי לאפשר הפצת חישובים תוך הבטחת שימוש יעיל במשאבי החומרה הזמינים.

מנהל היחידה לבינה מלאכותית הבין-מרכזית ציין כי זהו רק הצעד הראשון במאמצי היחידה לתרום לאסטרטגיה הרחבה יותר של איחוד האמירויות לבינה מלאכותית.

המודל נקרא על שם המילה הערבית “אור”, כדי לבסס את המתאם של מודל השפה הערבית להארת המוח. 

הנתונים, המידע, הדעות והתחזיות המתפרסמות באתר זה מסופקים כשרות לגולשים. אין לראות בהם המלצה או תחליף לשיקול דעתו העצמאי של הקורא, או הצעה או שיווק השקעות או ייעוץ השקעות – בין באופן כללי ובין בהתחשב בנתונים ובצרכים המיוחדים של כל קורא – לרכישה ו/או ביצוע השקעות ו/או פעולות או עסקאות כלשהן. במידע עלולות ליפול טעויות ועשויים לחול בו שינויי שוק ושינויים אחרים. כמו כן עלולות להתגלות סטיות בין התחזיות המובאות בסקירה זו לתוצאות בפועל. לכותב עשוי להיות עניין אישי במאמר זה, לרבות החזקה ו/או ביצוע עסקה עבור עצמו ו/או עבור אחרים בניירות ערך ו/או במוצרים פיננסיים אחרים הנזכרים במסמך זה. הכותב עשוי להימצא בניגוד עניינים. בלומר אינה מתחייבת להודיע לקוראים בדרך כלשהי על שינויים כאמור, מראש או בדיעבד. בלומר לא תהיה אחראית בכל צורה שהיא לנזק או הפסד שיגרמו משימוש במאמר/ראיון זה, אם יגרמו, ואינה מתחייבת כי שימוש במידע זה עשוי ליצור רווחים בידי המשתמש.
Exit mobile version