Bez fanfár nebo oficiálního oznámení spustila tento týden společnost OpenAI nového bota pro procházení webových stránek, který slouží ke skenování obsahu webových stránek a trénování velkých jazykových modelů (LLM).

Neoznámený sběr dat z webu vyvolal odpor

Poté, co se zpráva o botovi dostala na veřejnost, se však zvedla vlna odporu, protože majitelé a tvůrci webových stránek si začali rychle vyměňovat tipy, jak GPTBotovi zabránit ve sběru dat z jejich stránek.

Jak zabránit GPTBotovi ve sběru dat

Když společnost OpenAI přidala stránku podpory pro GPTBot, představila také způsob, jak službu zablokovat před sběrem dat z vašich webových stránek. Malá úprava souboru robots.txt webové stránky zabrání sdílení obsahu s OpenAI. Vzhledem k tomu, jak rozsáhlý sběr dat z webu probíhá, však není jasné, zda pouhé zablokování služby GPTBot zcela zabrání zahrnutí obsahu webových stránek do tréninkových dat pro LLM.

Vyjádření OpenAI

„Pravidelně shromažďujeme veřejná data z internetu, která mohou být použita ke zlepšení schopností, přesnosti a bezpečnosti budoucích modelů,“ uvedl mluvčí OpenAI. „Na našich webových stránkách poskytujeme pokyny, jak našemu botovi zakázat přístup k dané stránce. Webové stránky jsou filtrovány tak, aby byly odstraněny zdroje, které mají placené brány, je o nich známo, že shromažďují osobní údaje (PII), nebo obsahují text, který porušuje naše zásady.“

Co jednou web (crawler, LLM) schvátí, už nenavrátí

I když by byla užitečná větší kontrola nad tím, kdo může využívat obsah na otevřené síti, stále není jasné, jak účinné je pouhé zablokování GPTBota. OpenAI a další platformy generativní umělé inteligence již využily masivní sbírky veřejných dat k trénování svých modelů a v současnosti se potýkají s nedostatkem dalších dat pro trénink.

Závěr

OpenAI se vydává do oblasti sběru dat pomocí GPTBota, což otevírá také nové možnosti pro zdokonalování modelů umělé inteligence. Tento vývoj je však doprovázen mnoha právními a etickými otázkami.

Přihlásit k odběru

2 Komentáře

nejstarší

Nejnovější S nejvíce hlasy

Zpětná vazba na text v článku

Zobrazit všechny komentáře

Mirek Babak

2 let před

Další omezení svobod..??Nejvíce se boji demokracie ti,co ji mají plnou hubu.A já v tom vidím kedine-dalsi omezení svobody projevu,možná je tu krásně navoneny špionážní program určený ke sledování toho,co má internetu děláte..Satan vem umělou inteligenci i ty,kdo se toho zastavaji

-9

Odpovědět

Krata

Odpovědět na Mirek Babak

Boti, co prochází interner, existují nejméné 25 let. Tohle je jen další z nich. To vám dosud nevadilo? Jak to omezuje svobodu?

wpDiscuz

Přinášíme historicky největší letní slevovou akci na náš Patreon

Binance bojuje o evropskou licenci. Po stažení žádosti v Řecku hledá náhradní plán

Kiyosaki přiznal hlavní chybu, kterou v investování roky opakoval

Je tradiční altseason v ohrožení? Rotace kapitálu z bitcoinu se zadrhla

Analytik načrtl krizový scénář pro bitcoin. Při kolapsu akcií by mohl spadnout až ke 24 000 dolarům

[Souhrn článků] + Bitcoin se veze dolů s technologiemi, výprodej AI akcií znovu zasáhl i kryptoměny

Micron před výsledky: akcie u férové hodnoty, short puty lákají na 7% prémium

Pět akcií tvoří dvě třetiny portfolia Buffetta. Proč ho slepě nekopírovat?

Klesne bitcoin až na 38 000 USD? Dle tohoto grafu ano

5 dividendových králů ve slevě: stabilní firmy, které právě překonaly odhady Wall Street

Bitcoin je krůček od propadu na 52 000 USD

Oracle míří do bilionového klubu: akcie mají potenciál růst o dalších 77 %

Jak poznat býčí a medvědí trh na burze?

Jak investovat do zlata: prozkoumejte nejlepší možnosti

Jak funguje kryptoměnová burza?

Trezor Safe 7 recenze: ochrání i proti kvantovým počítačům?

Trading pro začátečníky: 3 pilíře, které Vám zachrání účet

Jak obchodovat výsledkovou sezónu? Jednoduchý návod chytré strategie

OpenAI vypustila GPTbota na sběr dat z webu, jak se bránit?

Obsah

Neoznámený sběr dat z webu vyvolal odpor

Jak zabránit GPTBotovi ve sběru dat

Vyjádření OpenAI

Co jednou web (crawler, LLM) schvátí, už nenavrátí

Závěr

Zeptej se AI na cokoliv

Chatuj si s AI