أنثروبيك تدمّر ملايين الكتب لتسريع تدريب Claude

أنثروبيك
ياسين عبد العزيز
كشفت وثائق قضائية أمريكية تفاصيل مثيرة عن استراتيجيات شركة أنثروبيك في تدريب نماذج الذكاء الاصطناعي الخاصة بها، حيث تبين أن الشركة مزقت ملايين الكتب الورقية ومسحتها ضوئيًا ضمن عملية وصفت بأنها "تدمير منظم" لمحتوى أدبي ومعرفي ضخم، بغرض تحويله إلى بيانات تغذي المساعد الذكي Claude.
أسلوب مدمر
بدأت القصة أوائل عام 2024 عندما عيّنت أنثروبيك توم تيرفي، وهو مسؤول سابق في مشروع Google Books، وكلفته بجمع أكبر قدر ممكن من الكتب من جميع أنحاء العالم.
لم تعتمد الشركة على الكتب الرقمية أو التراخيص التقليدية، بل استخدمت ما يُعرف بالمسح الضوئي المدمر، وهو أسلوب يتضمن إزالة الأغلفة وفصل الصفحات لتسهيل عملية الرقمنة، ثم التخلص من النسخ الورقية فورًا بعد مسحها.
وبحسب الوثائق، اشترت أنثروبيك الكتب بطريقة قانونية من متاجر كبرى للكتب المستعملة، وأنفقت ملايين الدولارات على هذه العمليات التي جرت بسرية ولم تُعلن عنها حتى بدأت التحقيقات القضائية.
جدل قانوني
حاولت الشركة تبرير فعلها بالاستناد إلى مبدأ “الاستخدام العادل” في القانون الأمريكي، والذي يسمح باستخدام مواد محمية بحقوق النشر لأغراض تعليمية أو بحثية أو تحليلية، بشرط عدم توزيعها علنًا.
وقد أيد القاضي ويليام ألسوب هذا التفسير، مؤكدًا أن الشركة لم تنشر النسخ الممسوحة رقميًا، بل استخدمتها داخلية فقط لتدريب نماذج Claude.

لكن القاضي نفسه أشار إلى أن أنثروبيك لم تلتزم تمامًا بهذا الإطار منذ البداية، إذ استخدمت نسخًا مقرصنة من الكتب الرقمية في مراحلها الأولى، ما أثار مخاوف قانونية بشأن التزامها بأخلاقيات الاستخدام العادل وحقوق النشر.
سباق البيانات
تتنافس شركات الذكاء الاصطناعي على جمع أكبر كمية ممكنة من البيانات عالية الجودة، مثل الكتب والمقالات والموسوعات، لتدريب نماذج اللغة الكبيرة LLMs.
وتشكل الكتب موردًا مهمًا نظرًا لاحتوائها على لغة دقيقة وثرية ومفردات متنوعة، لكنها محمية في معظم الأحيان بحقوق النشر، مما يدفع بعض الشركات إلى التملص من دفع رسوم الترخيص.
لجأت أنثروبيك إلى ما يسمى بـ“حق البيع الأول”، وهو مبدأ قانوني يتيح للمشتري استخدام النسخة المادية كما يشاء، حتى إنْ قرر تمزيقها ومسحها ضوئيًا، وبذلك تمكنت من تخطي القيود القانونية التي تمنع استخدامها المباشر للنصوص الرقمية المحمية دون إذن.
بدائل أخلاقية
ورغم أن بعض الشركات تلجأ لأساليب مدمّرة، إلا أن مؤسسات أخرى تتبنى خيارات أكثر حفاظًا على التراث الورقي، فعلى سبيل المثال، تعتمد منصة “أرشيف الإنترنت” على تقنيات مسح غير مدمّرة تبقي على النسخة الأصلية، كما تعاونت كل من OpenAI ومايكروسوفت مع مكتبات جامعة هارفارد لتدريب نماذجها على نحو مليون كتاب يعود تاريخها لقرون مضت دون المساس بالنسخ الورقية.
أخبار ذات صلة
الأكثر مشاهدة
أحدث الموبايلات
-
Apple iPhone 13 Pro Max
-
Xiaomi Redmi Note 11
-
Samsung Galaxy A52s
-
OPPO Reno6 Pro 5G
-
realme GT2 Pro
-
vivo Y19
-
Honor 50 Pro
-
Huawei Nova 9
-
Nokia 8.3 5G
هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟
-
نعم
-
لا
-
غير مهتم
أكثر الكلمات انتشاراً