أصدرت جامعة هارفارد، بالتعاون مع جوجل، مجموعة بيانات تضم مليون كتاب من كتب الملكية العامة لتدريب الجيل القادم من الذكاء الاصطناعي.
تشمل الكتب الأنواع واللغات والمؤلفين مثل ديكنز ودانتي وشكسبير والتي لم تعد محمية بحقوق الطبع والنشر بسبب عمرها. تأتي مبادرة مجموعة البيانات الجديدة نظرًا لأن بيانات التدريب على الذكاء الاصطناعي باهظة الثمن بشكل طبيعي وهي مناسبة بشكل أفضل لشركات التكنولوجيا ذات الأموال الكبيرة.
حصلت جامعة هارفارد على دعم مالي من عمالقة التكنولوجيا
وفقًا لمقالة نشرتها TechCrunch، فإن هذه المبادرة تقودها مبادرة البيانات المؤسسية بجامعة هارفارد (IDI). تحتوي هذه المبادرة على كتب مستمدة من مشروع Google القديم لمسح الكتب ضوئيًا Google Books .
تشمل الكتب الأخرى الموجودة في مجموعة البيانات كتب الرياضيات التشيكية وقواميس الجيب الويلزية.
وقد قامت الجامعة بالتشويق لمبادرة IDI في شهر مارس الماضي، موضحة بوضوح خططها لإنشاء "قناة موثوقة للبيانات القانونية للذكاء الاصطناعي". ومنذ ذلك الحين، لم يُسمع الكثير عنه حتى الإطلاق الرسمي يوم الخميس، وقام عملاقا التكنولوجيا مايكروسوفت وOpenAI بتمويل المشروع.
مجموعة البيانات ليست حكرًا على وادي السيليكون وحده، ولكن IDI فتحتها أمام أي شخص، بدءًا من مختبرات الأبحاث وحتى شركات الذكاء الاصطناعي الناشئة التي ترغب في تدريب نماذجها اللغوية الكبيرة.
من خلال فتح مجموعة البيانات لأي شخص، قال ، إن مجموعة البيانات تهدف إلى تكافؤ الفرص، في وقت تظل فيه تكلفة تدريب الذكاء الاصطناعي مرتفعة وباهظة للشركات الصغيرة وتجعلها حكرًا على الشركات ذات الميزانيات الضخمة.
وأضاف ليبيرت أن مجموعة البيانات "تتم مراجعتها بدقة"، وهو ما يعني وفقًا لفودزيلا أن شخصًا ما قام بالتحقق للتأكد من أن بارد قد رحل بالفعل وبعيدًا عن الطريق.
ستحتاج مجموعة بيانات هارفارد إلى المزيد من الموارد
وفقًا لليبيرت، الذي قارن إمكانات مجموعة البيانات بنظام Linux، نظام التشغيل مفتوح المصدر، فإن نجاح مجموعة بيانات هارفارد سيتوقف على عدد من المتغيرات. وقال ليبيرت إن نجاحها سيتطلب المزيد من الموارد والخبرة و"رشة من السحر" من نفس الشركات ذات الأموال الكبيرة التي صممت المبادرة لتحديها.
تم فحص المليون كتاب الموجود في مجموعة البيانات كجزء من برنامج كتب Google. يصف فودزيلا المبادرة بأنها كبسولة زمنية رقمية عندما كانت طموحات Google لمسح كل كتاب تبدو غريبة وليست بائسة.
ومع ذلك، فإن ليبيرت متفائل بشأن الاستخدامات المحتملة للمشروع، مما يشير أيضًا إلى أنه يمكن أن يكون كنزًا ثمينًا يساعد في تدريب نماذج الذكاء الاصطناعي للجميع بدءًا من الشركات الناشئة في المرآب وحتى تكتلات الشركات.
في حين أشاد البعض بالمبادرة باعتبارها قفزة ثورية إلى الأمام في إضفاء الطابع الديمقراطي على الذكاء الاصطناعي، يرى فودزيلا أن البعض قد يرى ذلك كوسيلة خفية لضمان أن أي شركة ناشئة طموحة تمتلك بضعة تيرابايت من مساحة الخادم يمكنها الآن التنافس في سباق لتطوير ChatGPT التالي. .
ومع ذلك، فإنها سوف تحتاج إلى المزيد من الموارد للمنافسة وإحداث dent في السوق. تم إطلاق ChatGPT في نوفمبر 2022 وحقق نجاحًا فوريًا، مما حفز السباق على نماذج الذكاء الاصطناعي التوليدية في جميع أنحاء العالم. ومع ذلك، فإن تطوير هذه النماذج قد خلق تعطشًا للبيانات لتحسينها، وقد تسببت هذه الرغبة في المزيد من البيانات في حدوث مشكلات بشأن مقدار المعلومات التي يمكنهم الحصول عليها، دون سرقتها.
حتى الآن، رفع ناشرون مثل وول ستريت جورنال ونيويورك تايمز دعوى قضائية ضد OpenAI وPerplexity بسبب استخدام بياناتهم دون إذن.