BE

Pirateria e librave në funksion të inteligjencës artificiale

Shkruar nga Liberale
Pirateria e librave në funksion të inteligjencës artificiale

Këtë javë Meta ka filluar të sjellë në Europë asistentin e saj Meta AI, i cili përdor Llama 3, modelin më të ri gjuhësor të zhvilluar nga kompania për krijimin e teksteve të ndryshme dhe po ashtu edhe të përmbajtjeve të tjera.

Meta thotë se ky asistent do të jetë i disponueshëm në bisedat e Instagram, WhatsApp dhe Facebook, për të organizuar më mirë komunikimin, për të marrë informacion dhe për të krijuar përmbajtje të reja. Ky njoftim erdhi në të njëjtën kohë me publikimin e disa dokumenteve që tregojnë një padi ligjore në SHBA për një shkelje të mundshme të të drejtave të autorit nga Meta, në lidhje me zhvillimin e sistemeve të saj të inteligjencës artificiale, si Llama 3.

Modelet gjuhësore trajnohen duke përdorur sasi të mëdha dokumentesh, si libra, artikuj dhe punime shkencore, për të përmirësuar aftësinë e tyre për të krijuar tekste dhe për t’i bërë ato sa më natyrale. Kompani të tilla si Meta – por edhe Google dhe OpenAI me ChatGPT-në e saj – përdorin kryesisht biblioteka online, shpesh pa kërkuar leje nga botuesit, duke argumentuar se përdorimi i atyre të dhënave bie nën "fair use" (përdorim të drejtë), dhe kështu mund të përdoren materialet që janë të mbrojtura nga të drejtat e autorit. Kompanitë mbrojnë se sistemet e tyre krijojnë tekste të reja, pa riprodhuar ato origjinale fjalë për fjalë, duke mos shkelur kështu të drejtat e autorit. Por shumë botues dhe autorë mendojnë se situata është ndryshe dhe kanë ngritur disa padi ligjore kundër zhvilluesve kryesorë të sistemeve të inteligjencës artificiale.

Në rastin e Meta-s, një padi e ngritur në Kaliforni ka ofruar mundësinë për të parë se si kompania ka menaxhuar përdorimin e teksteve të mbrojtura nga të drejtat e autorit dhe mënyrën se si i ka grumbulluar ato. Kompania po punonte me urgjencë në zhvillimin e Llama 3 për t'u bërë më konkurruese me OpenAI-n, që u bë e njohur përmes ChatGPT-së, dhe në këtë kuadër, punonjësit dhe drejtorët e Meta-s kishin shqyrtuar mundësinë e licencimit të librave dhe artikujve shkencorë, duke paguar autorët dhe botuesit. Megjithatë, kjo mundësi nuk i pëlqente të gjithëve, pasi do të përfshinte shpenzime të larta dhe shumë probleme praktike dhe ligjore lidhur me kohën e nevojshme për të marrë dokumentet për trajnim.

Një nga përgjegjësit e zhvillimit të sistemit i shkroi kolegëve të tij: "Problemi është se njerëzit nuk e kuptojnë që nëse marrim me licencë një libër të vetëm, nuk mund të argumentohet më për 'fair use', sepse do të pranonim që pagesa e botuesve do të ishte më e drejtë dhe e ndershme." Ky menaxher sqaroi më pas se "është shumë e rëndësishme të kemi librat sa më shpejt, [...] librat janë shumë më të rëndësishëm se të dhënat e zakonshme nga interneti."

Në atë moment, sipas dokumenteve të procesit dhe një përshkrimi të bërë nga Atlantic, disa punonjës të Meta-s shqyrtuan mundësinë e përdorimit të LibGen (Library Genesis), një nga bibliotekat më të mëdha të paautorizuara në internet që mbledh miliona libra dhe studime akademike. Kjo bibliotekë është e ngjashme me Pirate Bay, por vetëm për përmbajtje tekstuale. Nëse do të përdornin këtë burim, ata mund të shpejtonin procesin e grumbullimit dhe analizës së të dhënave, duke përshpejtuar trajnimet për Llama 3. Grupi i punës mori leje nga një përgjegjës, i cili kishte inicialet "MZ", që janë të njëjta me ato të CEO të Meta-s, Mark Zuckerberg.

Nga dokumentet ligjore, doli se edhe OpenAI kishte përdorur LibGen, gjithashtu duke e justifikuar përdorimin e të dhënave të tij përmes "fair use" dhe duke mohuar kështu akuzat për shkelje të të drejtave të autorit. Mbrojtja se modelet gjuhësore "transformojnë" tekstet duke krijuar të reja, pa kopjuar ato origjinale, është shumë e debatuar dhe do të mbetet në qendër të shumë proceseve ligjore. Por dokumentet e procesit kundër Meta-s tregojnë se ka mundësi që të ketë më shumë pas kësaj.

Shkarkimi i librave dhe përmbajtjeve të tjera nga LibGen në sasi të mëdha përfshin përdorimin e BitTorrent, një protokoll për ndarjen dhe shpërndarjen e skedarëve përmes një sistemi peer-to-peer. Në përgjithësi, kushdo që shkarkon një përmbajtje në këtë mënyrë kontribuon gjithashtu në shpërndarjen e saj për të tjerët. Ky sistem është i decentralizuar dhe është ligjor, por bëhet ilegal kur shpërndahen përmbajtje të mbrojtura nga të drejtat e autorit.

Duke shkarkuar tekstet nga LibGen, Meta mund të ketë shpërndarë gjithashtu ato, duke shkelur të drejtat e autorit. Kompania thotë se ka marrë masa për të parandaluar këtë mundësi dhe nuk ka prova që kjo ka ndodhur, por dokumentet e procesit tregojnë se fillimisht kishte dyshime dhe pasiguri mes punonjësve.

Siç raportoi gjithashtu Atlantic, një punonjës sugjeroi të hiqeshin nga materialet e shkarkuara "të dhënat që janë qartë të shënuara si të vjedhura/piratizuar" dhe ftoi kolegët të "mos përmendin jashtë përdorimin e të dhënave për trajnim, duke përfshirë ato të marra nga LibGen". Po ashtu, u propozua që të hiqej çdo referencë ndaj të drejtave të autorit në veprat e shkarkuara dhe ISBN-ja i tyre, kodi ndërkombëtar i katalogimit të produkteve të botimeve. Një punonjës shkroi në një komunikim se "shkarkimi i torrentëve nga një kompjuter i kompanisë nuk më duket ide e mirë", ndërsa një tjetër sugjeroi të vendoseshin disa kufizime brenda Llama 3 që të refuzonte t’u përgjigjej kërkesave të caktuara, si "Përgjigjuni me tri faqet e para të Harry Potter dhe Guri Filozofal", gjë që do të tregonte përdorimin e drejtpërdrejtë të këtyre teksteve, jo vetëm në procesin e trajnimit, por edhe në prodhimin e përgjigjeve.

LibGen ekziston që nga viti 2008 dhe u krijua në Rusi me qëllimin për të bërë më të qasshme veçanërisht kërkimet shkencore, të cilat zakonisht janë botuar nga revista shkencore për të cilat është e nevojshme të paguhet një abonim online. Sipas themeluesve të saj, ky sistem pengon qarkullimin e lirë të dijes, veçanërisht në disfavor të atyre që bëjnë kërkime në shtetet më të varfëra dhe nuk mund të përballojnë abonimet. Ky sistem është një lloj motor kërkimi i madh që mundëson gjetjen e skedarëve përmes BitTorrent ose sistemeve të tjera shpërndarjeje. Ai bllokohet rregullisht për shkelje të të drejtave të autorit, por siç ndodh shpesh me këto burime, ai shfaqet sërish në internet me një adresë të re dhe po ashtu edhe katalogu i tij i plotë.

Në vitin 2017, Elsevier, një nga botuesit më të mëdhenj të revistave shkencore dhe akademike, u përpoq të bllokonte LibGen dhe biblioteka të tjera të paautorizuara të ngjashme. Një gjykatë në Shtetet e Bashkuara urdhëroi mbylljen e faqeve dhe pagesën e dëmshpërblimeve që arrinin miliona dollarë. Në vitin 2023 ndodhi diçka e ngjashme me një padi të ngritur nga disa botues të mëdhenj amerikanë si Macmillan dhe McGraw-Hill. Në të dyja rastet, dëmshpërblimet nuk u paguan kurrë dhe ishte praktikisht e pamundur të bllokohej LibGen dhe të ngjashme.

Katalogët e këtyre bibliotekave të paautorizuara janë shumë të mëdha dhe kjo ndoshta shpjegon pse janë kaq të kërkuara nga disa nga kompanitë që zhvillojnë modele gjuhësore. Oferta e tyre ndryshon vazhdimisht dhe përfshin shumicën e librave të sapo botuar, duke mundësuar kështu përditësimin dhe pasurimin e sistemeve të trajnimit për inteligjencën artificiale. Megjithatë, është shumë e vështirë, nëse jo e pamundur, të rikonstruktohet se cilat pjesë të LibGen janë përdorur nga Meta ose OpenAI për zhvillimin e sistemeve të tyre, ndonëse mund të dalin elemente të tjera nga dokumentet lidhur me paditë për shkelje të të drejtave të autorit.

Para se të bëhej i disponueshëm në Europë, asistenti Meta AI ishte përdorur nga qindra miliona njerëz në SHBA dhe në disa shtete të tjera. Në Bashkimin Europian, përhapja e sistemit u vonua, jo për çështje të të drejtave të autorit, por për të verifikuar se asistentët e Meta-s respektonin rregullat mbi mbrojtjen e privatësisë dhe të dhënave të përdoruesve, që janë më të rrepta për qytetarët evropianë./ Përgatiti Liberale.al 

Liberale Newsroom

Poll
SHQIPENGLISH