בתחילת יולי, האדמה רעדה. אולי לא האדמה שעליה אתם יושבים כשאתם קוראים את המייל הזה, אבל האדמה הווירטואלית שעליה יושבת הרשת בהחלט רעדה.
זה קרה כשמנכ״ל חברת Cloudflare, שמספקת שירותי תשתיות ומנהלת תעבורה עבור כ-20% מהאתרים שאתם פוגשים ביום-יום, הודיע על מדיניות אגרסיבית חדשה: מעכשיו, ברירת המחדל של אתרים המשתמשים בשירותיה של החברה תהיה לחסום בוטים ש״זוחלים״ (crawl) וסורקים את התוכן באתר. גישה של בוטים כאלה לאתרים תתאפשר רק במקרים שבהם בעל התוכן אישר זאת באופן אקטיבי. ואם זה לא מספיק, הם הכריזו גם על תוכנית (מוגבלת בינתיים) שתאפשר לאתרים לגבות תשלום עבור סריקת התוכן על ידי בוטים.
זה אולי נשמע טכני מאוד, אבל המשמעות האמיתית של המהלך היא שענקיות הטכנולוגיה, ובעיקר אלה מהן שמפעילות מודלי שפה גדולים ומוצרים המבוססים עליהם, לא יוכלו להתייחס אל אתרי חדשות כבופה במתכונת אכול כפי יכולתך – אלא יצטרכו לנהל משא ומתן ולהסדיר את כניסת המידע וזרימת הבוטים שלהן לאתרים השונים. וזה שינוי שנוגע ישירות לאיום שגופי עיתונות חשים על בשרם – שצריכת התוכן תתרחש באופן מעובד, בפלטפורמות AI, ללא זרימה של משתמשים לאתרים עצמם.
לא פלא אם כן שבעולם התקשורת קיבלו את הבשורה בצהלות שמחה. ״כשחברות AI לא יכולות עוד לקחת את מה שהן רוצות ללא תמורה, נפתחת הדלת לחדשנות בת קיימא שמושתתת על מתן רשות ושותפות״, הצהיר מנכ״ל קונדה נאסט, רוג׳ר לינץ׳. ״זה צעד הכרחי לקראת ביסוס של תמורה הוגנת בקשת עבור יוצרים, תמיכה בעיתונות איכותית והטלת אחריות על חברות AI״. והוא לא היה היחיד: ההכרזה של Cloudflare לוותה בשורה של הצהרות נרגשות מצד בכירים בתעשייה.
זו גם הייתה המטרה המוצהרת של החברה – והיא זכתה לתהודה גם בהצהרה של המנכ״ל מתריו פרינס: ״אם הרשת הולכת לשרוד את עידן ה-AI, אנחנו צריכים לתת לגופי תקשורת את השליטה שהם ראויים לה ולבנות מודל כלכלי שעובד עבור כולם – יוצרים, צרכנים, יזמי ה-AI של העתיד, ועתיד הרשת עצמה. תוכן מקורי הוא מה שהופך את הרשת לאחת ההמצאות הגדולות ביותר של המאה הקודמת, ויש צורך חיוני בכך שיוצרים ימשיכו לייצר אותו. קרולרים של AI סרקו את התוכן ללא מגבלות. המטרה שלנו היא להחזיר את הכוח לידי היוצרים ועדיין לאפשר לחברות AI להוביל תהליכי חדשנות. אנחנו רוצים להבטיח עתיד של רשת חופשית ותוססת עם מודל חדש שמשרת את כולם״.
אז עכשיו תורי לבאס. לא שזו יוזמה גרועה: אני חושב שיש בה לא מעט היגיון, והיא בהחלט מייצרת איזון מסוים בדיון (המשפטי, העסקי והערכי) שמתנהל בימים אלה בין גופי תוכן לחברות AI. וכשקראתי על זה לראשונה חשבתי שזו באמת מהפכה. אבל אחרי שעצרתי לנשום עמוק ולחשוב רגע – הגעתי למסקנה שגם אם המהלך הזה יכול להוביל לתהליכים מקבילים שיאפשרו דו-קיום של עיתונות דיגיטלית ומודלי שפה גדולים, ספק רב אם הוא יוכל לייצר פתרון אמיתי.
נתחיל מהפן החיובי: למה בעצם שזה לא יעבוד? העובדה ש-Cloudflare תחסום בוטים באופן אוטומטי היא צעד מבורך. היום, ניהול הגישה של בוטים לתוכן באתרים קורה בעיקר בקובץ robots.txt של האתר. לא אכנס פה לכל הסוגיות הטכניות הנלוות – זה לא באמת קריטי להבנת הנושא: מה שחשוב להבין הוא שהקובץ הזה בעצם מכיל מעין מדריך לקרולרים ובוטים שונים, ומפנה אותם לעמודים הפנימיים שאותם הם יכולים לסרוק (למי שרוצה להעמיק, אני ממליץ על הכתבה המעולה הזו של The Verge).
כל זה טוב ויפה, אבל יש לא מעט עדויות מהחודשים האחרונים על כך שבוטים של חברות AI מתעלמים באופן בוטה מההנחיות האלה. לכן, חסימה קשיחה יותר ברמת תשתית האתר, כפי שמציעה Cloudflare, אמורה לפתור לפחות את הבעיה הזו.
עניין נוסף הוא סוגיית התשלום: הרעיון הזה, של גביית ״אגרה״ על סריקה ועיבוד של תוכן, מסתובב בתעשיית התקשורת בערך מאז ש-ChatGPT נכנס לחיינו (הזכרתי כאן כבר פעמיים בעבר את חברת TollBit, שמתעסקת בדיוק בזה). אבל בעוד שסטארט-אפים שנכנסים לתחום צריכים לגייס מסה קריטית של אתרי תוכן – כשענקית תשתיות כמו Cloudflare עושה את זה, היא מביאה איתה חתיכה נכבדת מאוד מהרשת.
הגודל של Cloudflare משרת פה עוד מטרה: עד עכשיו, המאבק בין תעשיית העיתונות הדיגיטלית לענקיות הטכנולוגיה התנהל בצורה מאוד לא מאוזנת. מצד אחד – מעט מאוד גופים עתירי משאבים. ומהצד השני – שוק תקשורת מבוזר, שמתנהל ללא שום ניהול מרוכז או זהות אינטרסים (כתבתי על זה כאן). חלק תובעים, חלק סוגרים עסקאות רישוי תוכן, אחרים מחכים על הקווים. הכניסה של שחקן כל כך דומיננטי בתחום תשתיות הרשת מקרבת אותנו למצב מאוזן יותר. פתאום, יש ענק גם בצד השני.
אז למה אני חושב שזה לא מספיק? כמה סיבות. אבל בראשן, אני חושב שזה נובע מהיעדר התייחסות ל-Endgame של המאבק הזה. איך אנחנו רואים את הדינמיקה בין גופי עיתונות לחברות AI בתרחיש אופטימלי? מה המקום של גופי עיתונות ברשת החדשה שמתהווה לנגד עינינו? על מה בעצם גופי עיתונות מנסים לשמור, והאם ההגנות החדשות מאפשרות זאת?
בואו נתחיל מהשאלה האחרונה: על מה גופי עיתונות בעצם מנסים לשמור? כאן, אני חושב שישנו בלבול מסוים שחומק מתחת לרדאר. מההצהרה של Cloudflare, עולה שהמטרה שלנו כאן היא לשמור על התוכן עצמו. כלומר, למנוע מצב שהתוכן העיתונאי שמייצרים הגופים האלה ״נשדד״ ללא כל תמורה על ידי ChatGPT ודומיו. מוצעים פה שני פתרונות: חסימה משמעותית יותר של סריקת תוכן, וכן ביסוס מודל עסקי חדש באמצעות גביית תשלום עבור סריקה.
אבל האם זו באמת המטרה? אני אישית חושב שלא, ושאם זה אכן היה המצב – אפשר היה לומר קדיש על העיתונות הדיגיטלית. יש שתי סיבות עיקריות לכך: האחת, היא שלתוכן של גופי העיתונות אין משקל דרמטי מספיק מבחינת הצרכים של חברות AI. השנייה, היא ששמירה על תוכן חדשותי לא שווה הרבה בלי איזושהי שליטה בהפצה – ועל זה אנחנו בעצם נלחמים פה.
נפרק רגע את הסוגייה הראשונה – ובשביל זה אני מזמין אתכם למסע בזמן, למהדורה הראשונה של Premium Clickbait: גוגל הראתה אז שתכנים חדשותיים לא באמת מזיזים את המחט מבחינתה, ושהיא יכולה להסתדר יפה מאוד בלעדיהם. אז למה שהמקרה של OpenAI או אנתרופיק יהיה שונה? יש המון מידע טקסטואלי ברשת. ישנם ספרים. סרטונים ביוטיוב. מאמרים אקדמיים. ארכיונים ומאגרי מידע שונים. X (טוויטר). Reddit. פאקינג ויקיפדיה! החברות האלה לא חייבות תוכן חדשותי בשביל לאמן מודלים, בטח לא אחרי שאימנו מודלים קודמים על מסות של תכנים שמגמדות את הארכיון השלם של ניו יורק טיימס לממדי אנט-מן בממלכה הקוואנטית. ובשביל לשלוף מידע – ובכן, אולי לא יהיה להם הניו יורק טיימס, אבל זה לא שאין להם עם מה לעבוד.
שנית – וכאן אנחנו מתמודדים עם נכות מסוימת שלא קיימת בתחומים יצירתיים אחרים – בעיתונות אין ממש יכולת לדבר על קניין רוחני אמיתי. דיווח על עובדות – גם אם הוא נעשה באופן בלעדי – בדרך כלל לא מוגן בזכויות יוצרים באותו אופן שבו מוזיקה, קולנוע או ספרות מוגנים. וגם אם 20% מאתרי החדשות יחסמו את התוכן שלהם בפני בוטים, יבואו אלפי אתרים אחרים שידווחו באופן עקיף על אותם דברים (אולי כולל מתן קרדיט ראוי, אולי לא) ויזינו את המודלים.
ולמה שיבואו אלפי אתרים שכן ירצו לספק את המידע למודלים? ובכן, זה מה שמביא אותנו לסוגייה השנייה: אנחנו לא נלחמים על התוכן, אלא על הפצה. על הפער שבין להיות יצרן תוכן, לבין להיות יעד לצריכת תוכן. וברגע שייווצר ואקום מסוים בשרשרת אספקת המידע, יבואו אחרים שצמאים להפצה או תהודה וימלאו את החלל. ולמעשה, זה נכון גם לגבי הגופים שלכאורה נלחמים על התוכן עצמו. ניו יורק טיימס למשל, לא תובעים את OpenAI רק בשביל שלא יקחו להם את התוכן. הרי כמעט כל סיפור בלעדי שמתפרסם בניו יורק טיימס, זוכה לדיווחים עקיפים בשלל אתרים. אפשר יהיה להגיע אליהם. מה שהם באמת רוצים, זה שאנשים ימשיכו לבקר באתר ובאפליקציה של ניו יורק טיימס בשביל להתעדכן. וזה מה שנמצא כעת תחת איום.
זו גם הסיבה למסקנה שלי שהמודל של תשלום עבור סריקת תוכן לא באמת משרת את עולם העיתונות. כלומר, הוא כן יכול לעזור להם לשרוד – ובמובן זה, אנחנו מדברים על צינור חמצן סביר – אבל הוא לא באמת מבסס ״רשת חופשית ותוססת עם מודל שמשרת את כולם״. כי אם זה המודל שאנחנו מבקשים לייצר, גופי העיתונות לא יהיו שונים מהותית מבני האדם בחוות האנרגיה של ״המטריקס״: פסי ייצור של מידע, שמזינים את המכונות ששולפות, מעבדות ומגישות אותו לצרכנים בצד השני.
מצב כזה גם מחזיר אותנו לנקודת ההתחלה: שוק התקשורת מבוזר, והוא לא מבוזר רק במובן של פיזור הכוח בין המון גופים – אלא גם ברמת התוכן. יש המון כפילויות בין גופי תקשורת שונים. כולם מביאים את הזווית שלהם, ואת הדיווח שלהם, על הסיפורים המרכזיים שמעסיקים את הקהל שלהם – ויש כאן המון חפיפות. אבל בהנחה שאנחנו מדברים על תרחיש של ״יצרני תוכן״ מול ״ספקי תוכן״, האם באמת יש צורך בכל כך הרבה גופים ועיתונאים?
לו אתם OpenAI, ורוצים להגיש מידע חדשותי רלוונטי למשתמשים שלכם בישראל – האם אתם באמת צריכים גם את ynet, גם את וואלה, גם את מאקו ו-N12? האם לא עדיף לכם לסגור הסכם רישוי אחד עם גוף שכולל מספיק תוכן, ולוותר על הסריקה של שאר האתרים, אם הם יתנגדו לכך? אני לא חושב שזה מקרי ש-OpenAI (וגם Perplexity) חתמו על מספר מצומצם כל כך של שותפויות תוכן. הן לא באמת מנסות לבסס מודל שבו כל שליפת מידע מתגמלת כל גוף תוכן – הן מעדיפות לשריין לעצמן מספיק צינורות אספקה של מידע שיאפשרו להן להתנהל יחסית בחופשיות. זה מודל שעובד להן, לא לשוק התקשורת המבוזר.
הצורך בהפצה יוצר עוד אתגר במודל החדש של Cloudflare: זה אולי נחמד כשאנחנו מדברים על ChatGPT או Perplexity, אבל כדאי להזכיר גם את הפיל שבחדר – גוגל, שכמדיניות מוצהרת לא באמת מאפשרת להפריד בין בוטים שסורקים תוכן עבור מנוע החיפוש שלה, לבין סריקת התוכן עבור מוצרי ה-AI שלה. האם גופי תקשורת יסכימו לוותר על הנוכחות בגוגל כדי לבצר את התוכן שלהם? הימור פרוע: אין סיכוי. גם אם מנועי חיפוש ידעכו כאמצעי חשיפה והפצה, זה יהיה תהליך איטי – ואף אחד לא יסכים להקריב את הטראפיק הזה, למעט יחידה סגולה.
ובכל זאת, בואו נסיים בטון אופטימי. אני לא חושב שהמדיניות החדשה של Cloudflare יכולה לשמש בסיס לפתרון ארוך טווח. גופי תקשורת חייבים קשר ישיר עם הצרכנים שלהם כדי לשמור לעצמם איזשהו סיכוי לעתיד בר-קיימא. תשלום אגרות של גופי AI לא באמת יפתור את הבעיה הזאת.
אבל הכניסה של שחקן חיזוק משמעותי כל כך כן יכולה לקנות זמן. וזמן זה בדיוק מה שגופי תקשורת צריכים בשביל לצאת מההלם הראשוני שמלווה אותנו ואותם כבר שנתיים, ולבחון אסטרטגיות פעולה שונות כדי להבטיח את עתידם. לגבות תשלום מבוטים כנראה לא יציל אותם, אבל הוא אולי יגרום לחברות ה-AI לעצור רגע ולחשוב – מה שייתן לגופי תקשורת, לרגולטורים ואולי אפילו לחברה האזרחית להדביק את הפער שנוצר בעקבות הקפיצה הטכנולוגית הכל כך מהירה שאנחנו עדים לה. כרגע, זה לא מעט.