GPT-4, nejnovější verze AI chatbota ChatGPT, dokáže zvládnout středoškolské testy a zkoušky na právnické fakultě s úspěšností 90 procent, přičemž disponuje i novými možnostmi pro procesování, které předchozí verze neumožňovala.
Údaje o výsledcích testů GPT-4 zveřejnil 14. března tvůrce OpenAI a prozradil, že kromě kreativnějšího a spolehlivějšího zpracování “daleko detailnějších instrukcí” chatbot GPT-4 dokáže převádět i obrazové, zvukové a video inputy na text.
“Simulovanou zkoušku složil s výsledkem odpovídajícím přibližně 10 % nejlepších účastníků testu,” dodala společnost OpenAI. “Naproti tomu skóre GPT-3.5 se pohybovalo kolem dolních 10 %.”
GPT-3.5 vs GPT-4
Z údajů vyplývá, že GPT-4 dosáhla ve zkoušce LSAT – testu, který musí studenti ve Spojených státech úspěšně zvládnout, aby byli přijati na právnickou fakultu – celkové skóre 163 bodů na úrovni 88 %.
Výsledek GPT4 by chatbotovi zajistil slušnou šanci na přijetí na některou z 20 nejlepších právnických škol a chybí mu jen několik bodů do uváděného skóre potřebného pro přijetí na prestižní školy, jako je Harvard, Stanford, Princeton nebo Yale.
Předchozí verze ChatGPT dosáhla v testu LSAT pouze 149 bodů, což ji řadilo na spodní hranici 40 %.
GPT-4 také dosáhla 298 bodů ze 400 v Uniform Bar Exam – testu, který skládají čerstvě promovaní studenti práv, který jim umožňuje vykonávat právnickou praxi v kterékoli jurisdikci USA.
Stará verze ChatGPT se v tomto testu umístila na posledním 10. místě s výsledkem 213 bodů ze 400 možných.
Pokud jde o zkoušky SAT Evidence-Based Reading & Writing a SAT Math, které skládají američtí středoškoláci, aby mohli posoudit svou připravenost na vysokou školu, GPT-4 dosáhl percentulu 93.
GPT-4 vynikala také v “těžkých” přírodních vědách, kde dosáhla výrazně nadprůměrných percentilů v kategoriích AP Biology (85-100 %), Chemistry (71-88 %) a Physics 2 (66-84 %).
Závěr – co AI umí a co neumí
Jeho skóre v AP Calculus však bylo spíše průměrné, umístilo se na úrovni 43 až 59 procent.
Další oblastí, ve které GPT-4 zaostávala, byly zkoušky z anglické literatury, kde se ve dvou samostatných testech umístila na 8 až 44 procentech.
Společnost OpenAI uvedla, že GPT-4 a GPT-3.5 převzaly tyto testy z cvičných zkoušek z let 2022-2023 a že nástroje pro zpracování jazyka neprošly “žádným specifickým tréninkem”:
“Pro tyto zkoušky jsme neprováděli žádné specifické školení. Menší část problémů ve zkouškách model viděl během tréninku, ale věříme, že výsledky jsou dostatečně reprezentativní.”
Výsledky vyvolaly obavy i v komunitě na Twitteru.
Nick Almond, zakladatel FactoryDAO, 14. března sdělil svým 14 300 příznivcům na Twitteru, že GPT4 “vyděsí lidi” a “zhroutí” globální vzdělávací systém:
“Teorie ohodnocení tvořila po několik let velkou část mého života. Už před mnoha lety jsem tvrdil, že tento den přijde. Tehdy jsem zněl doslova jako místní cvok.”
drnick ️² (@DrNickA) 14. března 2023
Bývalý ředitel Coinbase Conor Grogan zas uvedl, že do GPT-4 zavedl živý ethereový smart kontrakt a chatbot okamžitě upozornil na několik “bezpečnostních chyb” a nastínil, jak lze kód zneužít.
Dřívější audity smart kontraktů na ChatGPT zjistily, že jeho první verze je také schopna v rozumné míře odhalit chyby v kódu.
Rowan Cheung, zakladatel zpravodaje o umělé inteligenci The Rundown, sdílel video, na kterém GPT přepisuje ručně nakreslenou falešnou webovou stránku na kusu papíru do kódu.
“Právě jsem sledoval, jak GPT-4 proměnil ručně nakreslenou skicu ve funkční webovou stránku. Je to šílené…”
Rowan Cheung (@rowancheung) 14. března 2023