מסע אל מסתורי המאגרים התורניים – פרק ג'

מסע אל מסתורי המאגרים התורניים – פרק ג'

במאמר הקודם סרקנו את התוכנות והמאגרים למיניהם, חידוש זה של מאגרי התורה למיניהם הוא מהמתנות הגדולות שזכה דורנו לקבל. אין כל גוזמה בכך שנאמר שהיה אפשר למלא אלפי דוגמאות על האפשרויות הגלומות בתוכנות הללו, ועדיין היינו רחוקים מסיום.

הכמויות העצומות, השפע הבלתי נגמר – זוהי ההרגשה שמלווה את מי שפותח אותם, ועוד יותר – את מי שהתרגל לעסוק בה באופן רציף.

אם ניזכר במשל הספרייה על המאגרים הממוחשבים, הרי שכאן זה דומה עוד יותר לספרייה אמיתית, שכן צורות הדף הן בדיוק כמו בספר האמיתי ומצולמים דף אחר דף. ההבדל בין מאגר מוקלד לבין מאגר סרוק הוא בכמויות העצומות שיש ביכולתו של זה האחרון להכיל.

שאלו את מנהלי פרוייקט השו"ת או התקליטור התורני כמה עולה הקלדת ספר, והם ייאנחו אנחה כבדה. מדובר בהוצאות עצומות, כל ספר לוקח מאות שעות אנוש לפחות וההקלדה וההגהה עולות כסף רב.

איך מתמודדים עם הבעיה? פרוייקט השו"ת משתדל להשיג הסכמים עם הוצאות לאור שהדפיסו ספר כלשהו החשוב למאגר, ולקבל מהן את הטקסט המוקלד שיש להן. טקסט כזה הינו מעולה. הוא בדרך כלל כמעט נקי משגיאות, שכן הוא מסתמא עובד והוגה כראוי. ולפעמים נכללות בו אף הערות מועילות שההוצאה הסכימה לתת יחד עם הטקסט (יש כמה וכמה ספרים כאלה בפרוייקט השו"ת, כגון פירושי הרוקח לסדר התפילה, ועוד. יצויין אגב, שהחל מגירסא 14 ואילך ישנה אפשרות למשתמש עצמו להעיר הערות על גבי הטקסט המוקלד והתוכנה תשמור אותן, כנראה למדו זאת מ'אוצר החכמה׳ שהשיק את הרעיון הזה).

אך כפי שניתן לשער, אין הרבה הוצאות לאור שמסכימות לתת את הטקסטים שהן עצמן עבדו עליהם והשקיעו בהם דמים מרובים. הרי ממאגר כזה אפשר על נקלה להעתיק את הכול ולהדפיס מחדש, ובכלל – אולי אנשים לא יקנו את הספר המודפס אם יש להם אותו מוקלד (אף שאין כל יסוד לחשש זה, הספר המוקלד לא בא במקום מודפס למי שצריך אותו ללימוד רציף. ההקלדה טובה לחיפושים ולעיון, כפי שכבר כתבנו במאמר הקודם).

הוצאת התקליטור התורני, כך יש אומרים, משתמשת בדרך אחרת. הם סורקים טקסטים מודפסים, ומשתמשים בתוכנות בטכנולוגיית OCR כמו ליגטורה, או פיין רידר, המסוגלות ל׳קרוא' את התמונה ולהפוך אותה לסימנים מוקלדים. אך לתוכנות כגון אלו יש חסרון בולט: הן טועות ומחליפות בין הרבה אותיות, והבעיה חמורה במיוחד בעברית שבה יש הרבה אותיות דומות מבחינה גרפית כמו ב/כ/פ, כ/נ, ר/ד/ז/ו, ה/ח, א/ע/ט, י/ו/ן, וכדומה. זה עוד אחד מהמקומות שהמחשב – למרות יכולותיו העצומות – מתגלה כאפס גמור מול המוח האנושי.

האות א׳ במאמר שאני כותב כעת, מוקלדת על המחשב בגופן הנקרא ׳טיימס ניו רומן', ברירת המחדל של 'תוכנת וורד'. נוח לי להשתמש בו כי הוא נראה טוב על המסך. לעומת זאת מערכת ׳קולמוס׳ תשתמש בגופן אחר לצורך ההדפסה, אבל הא׳ תהיה אותה א׳. לא תהיה בעיה לאף אחד מהקוראים לזהות אותה. ולא רק באות דפוס מרובעת, אלא גם בכתב יד – אם אינו ׳מחורטם׳ כהוגן, יכול הקורא לזהות את כל האותיות ללא קושי מיוחד.

היכולת הזאת נראית לנו פשוטה מאוד ואיננו מתפעלים ממנה. אבל מתברר שכשמכניסים לזיכרון המחשב אות מסוימת, ואחר כך מבקשים ממנו לזהות אותה צורה בכל תמונה שהוא יראה – הוא אינו מסוגל לזהות את האות אם יתרחשו בגופן שינויים קלים ביותר כגון גודל, או הדגשה – שלא לדבר על שינויים גדולים כמו בכתבי יד. מספיק שאחת מרגליה של הא׳ תהיה ארוכה מידי או קצרה מידי, והגאון המרובע שלנו לא תופס שזו א׳. כמו כן, לא נכנס לו לראש שיש הבדל בין הד׳ שיש לה ראש קצר מצד ימין וראש ארוך יותר מצד שמאל – לבין הז׳ שיש לה ראש קצר משני הצדדים. או, מספיק שבדף המודפס שהוא סורק יתנתק ראשה של הד' מרגלה – והמחשב כבר לא יכיר בכך שמדובר באותה אות. ואם מדובר בטקסט מנוקד – המחשב מאבד את עשתונותיו לגמרי.

יכולת אנושית – יכולת מחשבית

היכולת האנושית לזהות פרטים יסודיים ולהתעלם מפרטים לא יסודיים כגון להבדיל בין נקודה לבין סתם לכלוך שנדבק לדף – היא יכולת שלא הצליחו להקנות אותה למחשב. מהנדסי ליגטורה טוענים שהם פיתחו שיטה בשם ׳רשתות נוירונים׳ המחקה יותר טוב את היכולת האנושית. אולם די לקרוא את המאמר שלהם, ולראות איך שהם עצמם מודים באפסיות המחשב מול העין והמוח האנושיים, כדי לעמוד שוב נפעמים מול עוצמת מעשי הבורא המתגלה בברואיו.

גלשנו מעט לנושא מעניין מאוד הראוי לתפוס במה בפני עצמה, אך נחזור לענייננו; צוות התקליטור התורני כנראה השתמש גם בטקסטים שהופקו על ידי תוכנות כאלו, ולכן יש בהם שכיחות גבוהה של טעויות. כך שאיך שלא יהיה, ספר מוקלד נקי מטעויות הוא משימה שעולה מחיר יקר –  או כספי או איכותי.

לסרוק ספרים כפתרון

בדיוק בנקודה הזו נכנס הרעיון של סריקת הספרים. הסורק האופטי עושה את מלאכתו מהר יותר מכל קלדן אפשרי, ואפשר באמצעותו להכניס אלפי ספרים למאגר בתוך זמן קצר יחסית. התמונה נאמנה כמובן למקור ב%100 והתוצאה: ספרייה בגודל ובהיקף שאין דוגמתם זולת בספריות ענק, ובנפח של קופסה הגדולה בערך כסידור ׳תפילת כל פה'. ׳אוצר החכמה׳ מכיל בראש ובראשונה את כל ספרי היסוד ורוב הספרים השימושיים ללומדים, כמן כן ספרים עתיקים ונדירים הרואים אור לראשונה מזה מאות שנים, מהדורות עתיקות של ספרים מפורסמים, מהדורות פקסימיליה של כתבי יד ודפוסים ראשונים, קונטרסים, כתבי עת וקבצים תורניים שיצאו לאור בהוצאה חד פעמית, אלפי ספרי יהדות חדשים בני דורנו, ועוד ועוד. ספרייה מוקלדת בהיקף כזה תעלה מיליונים ללא שום גוזמה, פשוטו כמשמעו. ההוכחה הבולטת לכך היא העובדה שפרוייקט השו"ת קיים כבר ארבעים שנה, וכמות הספרים שיש בו היא (בערך) 1200 בעוד שאוצר החכמה קיים כבר מספר שנים וכבר מכיל כ100,000 ספרים!

החיפוש

עם כל מעלותיו של מאגר ספרים סרוקים, יש לו לכאורה חסרון אחד שבעולם המחשבים הוא חסרון עצום – אי אפשר לערוך חיפושים בתוכנו. בשונה מהספר המוקלד שהמחשב אוגר בזיכרונו את התווים ויכול לחפש בהם את מה שנבקש ממנו, הרי שהספר הסרוק הוא בעצם תמונה מבחינת המחשב. לגביו אין שום הבדל בין תמונת נוף לבין דף עם אותיות, התמונה במחשב היא מאגר של פיקסלים ואין לו שום מידע מה היא מכילה, למעט העובדה שנקודה פלונית בתוך מפת הפיקסלים היא שחורה או לבנה.

הזכרנו כבר למעלה את התוכנות בטכנולוגיית OCR המנסה לחקות את יכולת הקריאה של העין והמוח האנושיים, ולהפוך טקסט סרוק לטקסט מוקלד. היה אפוא אפשר לסרוק בתוכנה כזו את התמונות ולהפוך אותן לטקסט מוקלד שיוכלו לערוך בו חיפושים. אבל הסריקות מלאות בשגיאות; להציג טקסט כזה ללא הגהה הוא דבר חסר תועלת, והגהה – אפילו הפשוטה ביותר, תעלה מיליונים כשמדובר בכמויות עצומות כאלו של ספרים.

וכאן הגו מפתחי התוכנה של אוצר החכמה רעיון עצום שלא יסולא בפז; הם החליטו לסרוק את התמונות, אבל במקום להציג למשתמש את העמוד המוקלד, הם הצמידו לכל תמונה את הטקסט שנסרק ממנה. כאילו ׳הדביקו׳ שני דפים; העליון הוא התמונה, והשני הוא הטקסט שנסרק מהתמונה כשהוא מקביל לתמונה המקורית שורה מול שורה. וכך, כשיבצע המשתמש חיפוש – תסרוק התוכנה את הטקסט המוקלד, אבל תציג לפניו את התמונה עם סימון במקום שבו התוכנה משערת שהטקסט נמצא. כך חסכנו את הבעיה של הטקסט מלא השגיאות.

התברר שהרעיון הזה עובד באופן מעולה. והגם שהחיפוש הזה אינו יכול להיות מדויק כחיפוש בטקסטים ללא שגיאות, אבל בכמות כל כך גדולה של ספרים – תמיד יימצא משהו. משל למאן דהו המטיל רשת לתוך בריכת דגים דחוסה; היכן שלא יטיל את רשתו הוא יעלה מלוא חופניים דגים כי הבריכה דחוסה ואין מקום בלי דג. ממש כך בנדון דנן: בעוד שבפרוייקט השו"ת ישנם כאמור אולי 1,300 ספרים, הרי כאן כבר קיימים 100,000 ספרים שאפשר לערוך חיפוש בטקסט שלהם.

אם דיברנו במאמר הקודם על הספרן העילוי שזוכר בעל פה את כל הספרים, הרי שכאן מדובר כבר ב׳גאון הגאונים׳ שאמנם הוא די מפוזר בהשוואה לספרן הדייקן של פרוייקט השו"ת, ולפעמים הוא מעלה תוצאות לא רלוונטיות – אבל הוא מכיר כל כך הרבה ספרים, שתמיד יהיה לו משהו בעל חשיבות. ומניסיון אישי, זה עובד בצורה מדהימה. אפשר לנסות ולכתוב את שמכם הפרטי עם המשפחה, בהרבה מקרים תתפלאו למצוא אותו בתוכנה (כמובן שלא בהכרח שזה יהיה אתם בעצמכם, אבל אותו שם).

רגע, עשית סריקה מהירה...

רוצה להוציא גם את הספר שלך לאור?

יש לנו מתנה בשבילך!
15% הנחה על סריקה חכמה שתחסוך לך את ההקלדה וההגהה.