بایگانی اینترنت (Internet Archive)، بزرگترین کتابخانه دیجیتال جهان، با عبور از مرز یک تریلیون صفحه وب ثبتشده، نقطه عطفی در تاریخ حفاظت از اطلاعات دیجیتال رقم زد. این دستاورد تاریخی در حالی حاصل شده که این سازمان غیرانتفاعی با چالشهای فزایندهای از سوی شرکتهای فناوری و ناشران بزرگ برای دسترسی به محتوای تازه مواجه است. اهمیت این آرشیو عظیم برای پژوهشگران، روزنامهنگاران و تاریخنگاران دیجیتال، آن را به گنجینهای بیبدیل در عصر اینترنت تبدیل کرده است.
یک تریلیون صفحه وب؛ نقطه عطفی در تاریخ حفاظت دیجیتال
پس از نزدیک به سه دهه تلاش مستمر، بایگانی اینترنت موفق شد یک تریلیونمین صفحه وب را به آرشیو خود اضافه کند. این موفقیت در شرایطی رقم خورده که اینترنت به بخش جداییناپذیر زندگی بشر تبدیل شده، اما همزمان با ناپایداری و تغییرات سریع، دسترسی به اطلاعات گذشته را دشوارتر ساخته است. به گزارش ایتنا و به نقل از Popular Science، محتوای دیجیتال ماهیتی زودگذر دارد و بقای آن وابسته به تلاش نهادهایی است که وظیفه حفظ حافظه تاریخی وب را بر عهده گرفتهاند.

حادثه تلخ سال ۲۰۱۹ در شبکه اجتماعی مایاسپیس، نمونهای گویا از این آسیبپذیری است. در جریان انتقال سرورها، یک خطای پیشبینینشده منجر به حذف دائمی تمام محتوای آپلودشده کاربران بین سالهای ۲۰۰۳ تا ۲۰۱۵ شد. برآوردها نشان میدهد در یک شب، حدود ۵۰ میلیون قطعه موسیقی از ۱۴ میلیون هنرمند برای همیشه از فضای دیجیتال ناپدید شدند. چنین رخدادهایی اهمیت وجود آرشیوهای پایداری چون بایگانی اینترنت را دوچندان میکند.
چالشهای پیش روی بایگانی اینترنت در عصر هوش مصنوعی
با وجود نقش حیاتی این آرشیو برای دانشگاهیان و پژوهشگران، موج جدیدی از محدودیتها گریبانگیر آن شده است. شرکتهای فناوری که در رقابت برای توسعه مدلهای زبانی بزرگ و سیستمهای هوش مصنوعی هستند، به مجموعه دادههای عظیم و بهروز نیاز دارند. این نیاز، پای بسیاری از ناشران بزرگ را به دادگاهها و مناقشات حقوقی باز کرده است.
در نتیجه، غولهای رسانهای نظیر نیویورک تایمز، گاردین و یواسای تودی/گانت، دسترسی رباتهای خزنده بایگانی اینترنت به محتوای جدید خود را مسدود کردهاند. هدف آنها جلوگیری از بهرهبرداری آثارشان در آموزش مدلهای هوش مصنوعی مولد است، اما این اقدام ناخواسته، مانعی جدی بر سر راه حفظ میراث دیجیتال معاصر ایجاد کرده است.
اهمیت بیبدیل بایگانی اینترنت برای نسلهای آینده
اگرچه چارچوب قانونی مشخصی برای جبران حقوق مادی پدیدآورندگان محتوا در تعامل با هوش مصنوعی وجود ندارد، اما محدودیتهای اعمالشده، اکوسیستم اطلاعاتی حساسی را که بایگانی اینترنت نمایندگی میکند، تهدید میکند. این آرشیو نه فقط مخزنی از صفحات وب قدیمی، بلکه حافظه جمعی عصر دیجیتال است.
ثبت یک تریلیون صفحه وب، فرصتی است برای تأمل در مسئولیت جمعی ما در قبال حفظ اطلاعات برای آیندگان. بایگانی اینترنت، با وجود تمام تنگناها، همچون چراغی در تاریکی تغییرات مداوم وب میدرخشد و به پژوهشگران، روزنامهنگاران و هر شهروند کنجکاو امکان میدهد به گذشته دیجیتال سفر کنند. امید میرود همه طرفهای درگیر در این مناقشه، به درک مشترکی برسند که حفاظت از تاریخ دیجیتال، فراتر از منافع کوتاهمدت تجاری، نیازمند همکاری و تدوین چارچوبهای منصفانهای است که هم حقوق پدیدآورندگان را تضمین کند و هم میراث داران فردا را از گنجینه امروز محروم نسازد.

سینا علیپور
او دانشجوی رشته مهندسی کامپیوتر در مقطع کارشناسی است و فعالیت حرفهای خود را در عرصه رسانه از سال ۱۳۹۸ با یک بلاگ شخصی در حوزه فناوری آغاز کرده است. وی پس از مدتی به عنوان نویسنده آزاد در مجلههای آنلاین تکنولوژی فعالیت کرد و در حال حاضر، دبیر سرویس نقد و بررسی گجتهای هوشمند در یک مجله معتبر تکنولوژی است.