الأحد، 06 يوليو 2025

11:03 م

tru

أنثروبيك تدمّر ملايين الكتب لتسريع تدريب Claude

أنثروبيك

أنثروبيك

ياسين عبد العزيز

A A

كشفت وثائق قضائية أمريكية تفاصيل مثيرة عن استراتيجيات شركة أنثروبيك في تدريب نماذج الذكاء الاصطناعي الخاصة بها، حيث تبين أن الشركة مزقت ملايين الكتب الورقية ومسحتها ضوئيًا ضمن عملية وصفت بأنها "تدمير منظم" لمحتوى أدبي ومعرفي ضخم، بغرض تحويله إلى بيانات تغذي المساعد الذكي Claude.

أسلوب مدمر

بدأت القصة أوائل عام 2024 عندما عيّنت أنثروبيك توم تيرفي، وهو مسؤول سابق في مشروع Google Books، وكلفته بجمع أكبر قدر ممكن من الكتب من جميع أنحاء العالم. 

لم تعتمد الشركة على الكتب الرقمية أو التراخيص التقليدية، بل استخدمت ما يُعرف بالمسح الضوئي المدمر، وهو أسلوب يتضمن إزالة الأغلفة وفصل الصفحات لتسهيل عملية الرقمنة، ثم التخلص من النسخ الورقية فورًا بعد مسحها.

وبحسب الوثائق، اشترت أنثروبيك الكتب بطريقة قانونية من متاجر كبرى للكتب المستعملة، وأنفقت ملايين الدولارات على هذه العمليات التي جرت بسرية ولم تُعلن عنها حتى بدأت التحقيقات القضائية.

جدل قانوني

حاولت الشركة تبرير فعلها بالاستناد إلى مبدأ “الاستخدام العادل” في القانون الأمريكي، والذي يسمح باستخدام مواد محمية بحقوق النشر لأغراض تعليمية أو بحثية أو تحليلية، بشرط عدم توزيعها علنًا. 

وقد أيد القاضي ويليام ألسوب هذا التفسير، مؤكدًا أن الشركة لم تنشر النسخ الممسوحة رقميًا، بل استخدمتها داخلية فقط لتدريب نماذج Claude.

أنثروبيك

لكن القاضي نفسه أشار إلى أن أنثروبيك لم تلتزم تمامًا بهذا الإطار منذ البداية، إذ استخدمت نسخًا مقرصنة من الكتب الرقمية في مراحلها الأولى، ما أثار مخاوف قانونية بشأن التزامها بأخلاقيات الاستخدام العادل وحقوق النشر.

سباق البيانات

تتنافس شركات الذكاء الاصطناعي على جمع أكبر كمية ممكنة من البيانات عالية الجودة، مثل الكتب والمقالات والموسوعات، لتدريب نماذج اللغة الكبيرة LLMs. 

وتشكل الكتب موردًا مهمًا نظرًا لاحتوائها على لغة دقيقة وثرية ومفردات متنوعة، لكنها محمية في معظم الأحيان بحقوق النشر، مما يدفع بعض الشركات إلى التملص من دفع رسوم الترخيص.

لجأت أنثروبيك إلى ما يسمى بـ“حق البيع الأول”، وهو مبدأ قانوني يتيح للمشتري استخدام النسخة المادية كما يشاء، حتى إنْ قرر تمزيقها ومسحها ضوئيًا، وبذلك تمكنت من تخطي القيود القانونية التي تمنع استخدامها المباشر للنصوص الرقمية المحمية دون إذن.

بدائل أخلاقية

ورغم أن بعض الشركات تلجأ لأساليب مدمّرة، إلا أن مؤسسات أخرى تتبنى خيارات أكثر حفاظًا على التراث الورقي، فعلى سبيل المثال، تعتمد منصة “أرشيف الإنترنت” على تقنيات مسح غير مدمّرة تبقي على النسخة الأصلية، كما تعاونت كل من OpenAI ومايكروسوفت مع مكتبات جامعة هارفارد لتدريب نماذجها على نحو مليون كتاب يعود تاريخها لقرون مضت دون المساس بالنسخ الورقية.

Short URL
استطلاع رأى

هل يتراجع عدد عملاء CIB خلال الفترة المقبلة بعد زيادة أسعار رسوم التحويل والخدمات؟

  • نعم

  • لا

  • غير مهتم

search

أكثر الكلمات انتشاراً