OpenAI vypustila GPTbota na sběr dat z webu, jak se bránit?

4.4
(7)
Denisa Falta
Denisa Falta
Původem vystudovaná ekonomka, se zkušenostmi z bankovnictví, neziskovek a později s vlastním podnikáním. Přes sci-fi, zejména utopické a dystopické romány, jsem se dostala až ke kryptoměnám a blockchainu. Na nich mě fascinuje možnost sledovat v přímém přenosu to, co by dřív bylo považováno za sci-fi.

Bez fanfár nebo oficiálního oznámení spustila tento týden společnost OpenAI nového bota pro procházení webových stránek, který slouží ke skenování obsahu webových stránek a trénování velkých jazykových modelů (LLM).

Neoznámený sběr dat z webu vyvolal odpor

Poté, co se zpráva o botovi dostala na veřejnost, se však zvedla vlna odporu, protože majitelé a tvůrci webových stránek si začali rychle vyměňovat tipy, jak GPTBotovi zabránit ve sběru dat z jejich stránek.

Jak zabránit GPTBotovi ve sběru dat

Když společnost OpenAI přidala stránku podpory pro GPTBot, představila také způsob, jak službu zablokovat před sběrem dat z vašich webových stránek. Malá úprava souboru robots.txt webové stránky zabrání sdílení obsahu s OpenAI. Vzhledem k tomu, jak rozsáhlý sběr dat z webu probíhá, však není jasné, zda pouhé zablokování služby GPTBot zcela zabrání zahrnutí obsahu webových stránek do tréninkových dat pro LLM.

Vyjádření OpenAI

“Pravidelně shromažďujeme veřejná data z internetu, která mohou být použita ke zlepšení schopností, přesnosti a bezpečnosti budoucích modelů,” uvedl mluvčí OpenAI. “Na našich webových stránkách poskytujeme pokyny, jak našemu botovi zakázat přístup k dané stránce. Webové stránky jsou filtrovány tak, aby byly odstraněny zdroje, které mají placené brány, je o nich známo, že shromažďují osobní údaje (PII), nebo obsahují text, který porušuje naše zásady.”

Co jednou web (crawler, LLM) schvátí, už nenavrátí

I když by byla užitečná větší kontrola nad tím, kdo může využívat obsah na otevřené síti,  stále není jasné, jak účinné je pouhé zablokování GPTBota. OpenAI a další platformy generativní umělé inteligence již využily masivní sbírky veřejných dat k trénování svých modelů a v současnosti se potýkají s nedostatkem dalších dat pro trénink.

Závěr

OpenAI se vydává do oblasti sběru dat pomocí GPTBota, což otevírá také nové možnosti pro zdokonalování modelů umělé inteligence. Tento vývoj je však doprovázen mnoha právními a etickými otázkami.

Klikni na hvězdičky pro hodnocení!

Průměrné hodnocení 4.4 / 5. Počet hlasujících 7

Buď první kdo článek ohodnotí

Přihlásit k odběru
Upozornit na
guest
2 Komentáře
nejstarší
Nejnovější S nejvíce hlasy
Zpětná vazba na text v článku
Zobrazit všechny komentáře
Mirek Babak

Další omezení svobod..??Nejvíce se boji demokracie ti,co ji mají plnou hubu.A já v tom vidím kedine-dalsi omezení svobody projevu,možná je tu krásně navoneny špionážní program určený ke sledování toho,co má internetu děláte..Satan vem umělou inteligenci i ty,kdo se toho zastavaji

Krata

Boti, co prochází interner, existují nejméné 25 let. Tohle je jen další z nich. To vám dosud nevadilo? Jak to omezuje svobodu?

spot_img