Scale AI تؤمن مليار دولار في جولة تمويل من السلسلة F لتعزيز سلسلة توريد بيانات الذكاء الاصطناعي
Accel تقود جولة تمويل ضخمة بقيمة مليار دولار، وتقيّم رائدة تسمية البيانات بـ 13.8 مليار دولار.
أنهت Scale AI جولة تمويل من السلسلة F بقيمة مليار دولار، مما رفع تقييمها إلى 13.8 مليار دولار مع وصول الطلب العالمي على بيانات التدريب عالية الدقة إلى ذروته. قادت Accel الجولة بمشاركة كبيرة من المستثمرين الأكثر نشاطًا في مجال الذكاء الاصطناعي، بما في ذلك Nvidia و Amazon و Meta. يأتي هذا الاستثمار الرأسمالي في وقت حرج حيث يهدد "جدار البيانات" - النقص الوشيك في النصوص والوسائط عالية الجودة التي يولدها البشر - بإيقاف قوانين التوسع التي دفعت طفرة الذكاء الاصطناعي التوليدي.
تصنيع تسمية البيانات
تم تخصيص رأس المال الجديد لـ Scale AI خصيصًا لتوسيع محرك البيانات (Data Engine) الخاص بها، وهو البنية التحتية المملوكة المستخدمة لتنقية مجموعات البيانات الخام المطلوبة لنماذج Frontier. على عكس الأيام الأولى من وضع علامات بسيطة على الصور، يتطلب السوق الحالي التعلم المعزز المعقد من خلال ردود فعل بشرية (RLHF). وضعت Scale AI نفسها كوسيط أساسي، حيث تقوم بتحويل البيانات الرقمية الخام إلى رموز منظمة وعالية الاستدلال التي تشغل نماذج مثل GPT-4 و Claude 3. يشير إشراك بناة النماذج الرئيسيين كمستثمرين إلى خطوة استراتيجية لتأمين سلاسل توريد البيانات الخاصة بهم ضد المنافسين.
الترخيص الاستراتيجي وتحول البيانات في الوقت الفعلي
تعد جولة Scale AI جزءًا من تحول هيكلي أوسع في كيفية الحصول على البيانات وتقييمها. مع ابتعاد الصناعة عن كشط الويب غير المصرح به، أصبحت اتفاقيات الترخيص المباشر هي المعيار. تم تسليط الضوء على هذا التحول هذا الأسبوع من خلال الشراكة التاريخية بين OpenAI و Reddit، والتي تمنح عملاق الذكاء الاصطناعي الوصول إلى واجهة برمجة تطبيقات بيانات Reddit. من خلال دمج المحادثات البشرية في الوقت الفعلي، تهدف OpenAI إلى تعزيز ملاءمة ChatGPT مع تزويد Reddit بميزات مدعومة بالذكاء الاصطناعي لمستخدميها والمشرفين عليها. تعكس هذه الصفقة اتفاقية Google السنوية البالغة 60 مليون دولار مع Reddit في وقت سابق من هذا العام، مما يحدد سعر سوق واضح للبيانات الاجتماعية عالية الحجم.
حماية الملكية الفكرية والرد التنظيمي
بينما تميل بعض المنصات نحو تحقيق الدخل، يبني البعض الآخر خنادق دفاعية. أصدرت مجموعة Sony Music Group مؤخرًا تحذيرًا رسميًا لأكثر من 700 شركة تقنية، معلنة صراحةً عن عدم موافقتها على أي استخدام غير مصرح به لمحتواها لتدريب الذكاء الاصطناعي. يسلط هذا الجهد الضخم لحماية الملكية الفكرية الضوء على الاحتكاك المتزايد بين مطوري الذكاء الاصطناعي المتعطشين للبيانات وأصحاب الأصول الإبداعية المتميزة. في الوقت نفسه، تقوم الجهات التنظيمية بتشديد الخناق على ممارسات جمع البيانات. قامت هيئة المعلومات في المملكة المتحدة (ICO) مؤخرًا بتحديث إرشاداتها بشأن كشط الويب، موضحة أن البيانات الشخصية التي يتم كشطها من الويب العام لتدريب الذكاء الاصطناعي تظل خاضعة لقوانين حماية البيانات الصارمة.
البنية التحتية وأسواق البيانات المتخصصة
لا يضاهي رأس المال المتدفق إلى البيانات إلا الاستثمار في الأجهزة المطلوبة لمعالجتها. حصلت CoreWeave مؤخرًا على تسهيلات ديون بقيمة 7.5 مليار دولار بقيادة Blackstone و Magnetar لتوسيع بصمتها من مراكز البيانات المتخصصة في الذكاء الاصطناعي. على جانب البرمجيات، تشهد الشركات الناشئة المتخصصة في البيانات أيضًا زخمًا كبيرًا. رفعت DeepL، المتخصصة في ترجمة اللغات، 300 مليون دولار بتقييم 2 مليار دولار، مما يثبت أن مجموعات البيانات المتخصصة وعالية الدقة للترجمة واتصالات المؤسسات لا تزال ذات قيمة عالية. علاوة على ذلك، حصلت Lamini على 25 مليون دولار لمساعدة المؤسسات على ضبط النماذج باستخدام بياناتها الداخلية الخاصة، متجاوزة مخاطر ندرة البيانات العامة.
لماذا يهم أصحاب البيانات
بالنسبة لأصحاب البيانات، يؤكد تقييم Scale AI وصفقة Reddit/OpenAI أن البيانات الخاصة لم تعد منتجًا ثانويًا - إنها فئة أصول أساسية. مع اقتراب "جدار البيانات"، ستزداد العلاوة على مجموعات البيانات النظيفة والمتحقق منها بشريًا والمتوافقة قانونيًا. المنظمات التي تمتلك أرشيفات كبيرة من المعرفة المتخصصة، سواء في وسائل التواصل الاجتماعي أو الرعاية الصحية أو الفنون الإبداعية، لديها الآن نفوذ كبير للتفاوض على تدفقات إيرادات ترخيص طويلة الأجل بدلاً من السماح لأصولها بأن تصبح سلعة من قبل زواحف الويب العامة.
يحول d-nvest أصول البيانات وراء هذه الصفقات إلى فرص قابلة للتنفيذ ومقيمة.
استكشف خط الأنابيب ←