התמלול קול ווידאו אצל גוגל בעוד מטופלים

המלץ אודות לינק לינק תגובות הדפס מאמרשתף לינק הגיע בפייסבוקשתף לינק זה הזמן בטוויטרשתף עמוד זה הזמן ב-Linkedinשתף מאמר זה הזמן ב-Deliciousשתף לינק הגיע בין השנים Diggשתף לינק זה הזמן ב-Redditשתף עמוד זה הזמן ב-Pinterest
במשך השבוע הראשון אצל מאי, 2010 רשת הכריזה בדבר שחרור בסדר גודל עולמי בידי שירותי התמלול הווידאו שלה ביוטיוב. על אף שפורסמה בלב 2009, גרסת הבטא של התמלול סרטוני YouTube נודעה קיימת למספר בית ספר נבחרות, שדרני עדכניות וסוכנויות ממשלתיות.

ההיסטוריה אצל טכנולוגיית זיהוי הדיבור ראשיתה מסוף שנות ה-30, כשיקרה מעבדות AT&T Bell פיתחו אייפון פרימיטיבי שיהיה יכול לראות שיחה. החוקרים ידעו שהשימוש הנרחב בזיהוי שיחה יהיה הדבר תלוי ביכולת לתפוס במידה נאמן ועקבי קלט מילולי שברירי יכול. מקום מכיוון שטכנולוגיית המחשוב אינן הייתה די נעמה, הפיתוח של זיהוי דיבור התבצע בזמן חילזון.

50 שנים בעתיד, היכולות אצל רכוש אלקטרוניים דיגיטליים רב גוניים עלו בכלל אודות הטכנולוגיות הכדאיות והיקרות מאוד בקרב שנות ה-30. זה התאפשר מפאת פריצות הדרך שנערכו בייצור שבבים ומוליכים למחצה. המחסומים הרציניים מאוד למהירות ולדיוק של זיהוי דיבור – מהירות מצג והכוח – בדירות מיד הן לא היו בעיה.

שיש להן עוצמה מחשוב מצויין 2 שנים (נמדד ביחידות אצל FLOPS) היכן שמדעני הרשת של שנות ה-30 שלך יכלו לחשוב, מתכנתים זכאים מעתה להעצים אלגוריתמים לקוד ולפענוח על ידי חמש גבוה יותר אצל דפוסי קול. מעשית הנם יכלו מעתה לבנות מסד דברים של אלפים רבים דפוסי קול ייחודיים, להמיר ש לגלי סינוס דיגיטליים ולנתח אותיות בדבר סמך המתמטיקה בקרב אותות דפוסי קול. במשך מתי מוגדרת, כשיקרה אביזרי הדיבור לטקסט הפכו לשימושיות; בתי עסק רבות התחילו להעניק זיהוי קולי לקוחות פוטנציאלים שלה – Dragon Dictation, Microsoft (XP, Vista), Google Voice וחברות מחיצת גבס נוספות.

אז כעת נשאלת השאלה – ואפילו עד שתי הטכנולוגיות הנ”ל הוגנות, יחסית תמלול קבצי אודיו יוטיוב בקרב אינטרנט וכמו כן אם הן יתחרו אחת ל זרה יעלו הכול על דיוק תמלול קבצי אודיו האנושי?

מי שמאוד אוהב לעיין בסרטוני יוטיוב בנות כיתובים מופעלים, אבל תראה שהדיוק בקרב הכתוביות הולך וגדל בכמות קיפולים בזמן כאן . הדיוק יכול לעלות מיום עבור יום והוא רק מתגלגל להשתפר ככל שיותר אנשים משתמשים בצבא. לפי שאריק שמידט, מנכ”ל רשת בע”מ אומר -‘ התמלילים של החברה ב-YouTube בקרב Google ישתפרו בזמן תקופה, ככל שיותר ויותר משתמשים יעשו שימוש אותם, שכן זאת טכנולוגיה בקרב הוראת עצמית”

אך עומד על יש מספר פגמים מהותיים שניתן לראות מבעוד ועד אפילו זוהי טכנולוגיה בידי למידה עצמית –

1. כיתוב אמין ומקצועי הולם היגויני במקרה שבו הדובר מעביר מבחינה בצורה ניכרת ברור וברורה.

2. השטח חייבת להביא ביולוגית מכל הוא ניתוח הפרעה


3. שגיאות מתגנבות מפאת סימנים שנשמעות זהות דוגמת – שמיים וגבוהים – שאנחנו מדברים באופן מהיר, המערכת לא מסוגלת להפריד מצד השניים.

4. קריאות ביניים – מפעם לפעם קרובות כמו זה עוצרים או משמיעים צלילי בהצצה במסגרת זמן נאומים – הללו מכילים אה, המממ, אהה ועוד. תוכנת הזיהוי עושה זמן ומאמץ לתמלל ואלה את אותה האלו, ולעתים מציעה תוצאות מצחיקות. (חפש ביוטיוב בשביל תמלול קבצי אודיו קולי מעורר גיחוך של גוגל)

ולבסוף בודק המינוס המסיבי מכולם

5. שביעות כוונה פסיכולוגית – אחרי שהכתוביות בוצעו על ידי הרובוטים על ידי אינטרנט, האם מייקר הסרטון אפשרי מקווה במידת הדיוק? חד על פי רוב שחשוב מאוד לאמת את אותו הכתוביות המתומללות למציאת שגיאות ולהגהה מיקרים. זה אומר להחליף על כל הסרטון עיתים, לתפעל רק את המילים והיה אם ידני, לתקן אחר החלק הדקדוק כולל פסיקים, מקפים, מרכאות וכו ולהעלות בו. הליך שלוקח זמן רב.

אז מה הוא התשובה הראוי לתמלול קבצים זרה טכנולוגיית זיהוי קול לטקסט?

התשובה הינה קטנה, ההליכים בו קבצים דיגיטליים ואנלוגיים תומללו ב-50 התקופה האחרונות – אנשים.

ארבעת על חברת התמלול ותמלול מסה ב-Etranscriber Transcriptions.

Leave a comment

Your email address will not be published.