Nová verze ChatGPT zvládá vysokoškolské testy a dokáže identifikovat exploity ve smart kontraktech

5
(2)

GPT-4, nejnovější verze AI chatbota ChatGPT, dokáže zvládnout středoškolské testy a zkoušky na právnické fakultě s úspěšností 90 procent, přičemž disponuje i novými možnostmi pro procesování, které předchozí verze neumožňovala.

Údaje o výsledcích testů GPT-4 zveřejnil 14. března tvůrce OpenAI a prozradil, že kromě kreativnějšího a spolehlivějšího zpracování “daleko detailnějších instrukcí” chatbot GPT-4 dokáže převádět i obrazové, zvukové a video inputy na text.

“Simulovanou zkoušku složil s výsledkem odpovídajícím přibližně 10 % nejlepších účastníků testu,” dodala společnost OpenAI. “Naproti tomu skóre GPT-3.5 se pohybovalo kolem dolních 10 %.”

GPT-3.5 vs GPT-4

Z údajů vyplývá, že GPT-4 dosáhla ve zkoušce LSAT – testu, který musí studenti ve Spojených státech úspěšně zvládnout, aby byli přijati na právnickou fakultu – celkové skóre 163 bodů na úrovni 88 %.

Výsledek GPT4 by chatbotovi zajistil slušnou šanci na přijetí na některou z 20 nejlepších právnických škol a chybí mu jen několik bodů do uváděného skóre potřebného pro přijetí na prestižní školy, jako je Harvard, Stanford, Princeton nebo Yale.

Předchozí verze ChatGPT dosáhla v testu LSAT pouze 149 bodů, což ji řadilo na spodní hranici 40 %.

GPT-4 také dosáhla 298 bodů ze 400 v Uniform Bar Exam – testu, který skládají čerstvě promovaní studenti práv, který jim umožňuje vykonávat právnickou praxi v kterékoli jurisdikci USA.

Výsledky UBE nezbytné pro přijetí k výkonu právnické praxe v jednotlivých jurisdikcích USA. (Zdroj: National Conference of Bar Examiners)

Stará verze ChatGPT se v tomto testu umístila na posledním 10. místě s výsledkem 213 bodů ze 400 možných.

Pokud jde o zkoušky SAT Evidence-Based Reading & Writing a SAT Math, které skládají američtí středoškoláci, aby mohli posoudit svou připravenost na vysokou školu, GPT-4 dosáhl percentulu 93.

GPT-4 vynikala také v “těžkých” přírodních vědách, kde dosáhla výrazně nadprůměrných percentilů v kategoriích AP Biology (85-100 %), Chemistry (71-88 %) a Physics 2 (66-84 %).

Výsledky zkoušek GPT-4 a GPT-3.5 na celé řadě nedávných amerických zkoušek (Zdroj: OpenAI)

Závěr – co AI umí a co neumí

Jeho skóre v AP Calculus však bylo spíše průměrné, umístilo se na úrovni 43 až 59 procent.

Další oblastí, ve které GPT-4 zaostávala, byly zkoušky z anglické literatury, kde se ve dvou samostatných testech umístila na 8 až 44 procentech.

Společnost OpenAI uvedla, že GPT-4 a GPT-3.5 převzaly tyto testy z cvičných zkoušek z let 2022-2023 a že nástroje pro zpracování jazyka neprošly “žádným specifickým tréninkem”:

“Pro tyto zkoušky jsme neprováděli žádné specifické školení. Menší část problémů ve zkouškách model viděl během tréninku, ale věříme, že výsledky jsou dostatečně reprezentativní.”

Výsledky vyvolaly obavy i v komunitě na Twitteru.

Nick Almond, zakladatel FactoryDAO, 14. března sdělil svým 14 300 příznivcům na Twitteru, že GPT4 “vyděsí lidi” a “zhroutí” globální vzdělávací systém:

“Teorie ohodnocení tvořila po několik let velkou část mého života. Už před mnoha lety jsem tvrdil, že tento den přijde. Tehdy jsem zněl doslova jako místní cvok.”

drnick ️² (@DrNickA) 14. března 2023

Bývalý ředitel Coinbase Conor Grogan zas uvedl, že do GPT-4 zavedl živý ethereový smart kontrakt a chatbot okamžitě upozornil na několik “bezpečnostních chyb” a nastínil, jak lze kód zneužít.

Dřívější audity smart kontraktů na ChatGPT zjistily, že jeho první verze je také schopna v rozumné míře odhalit chyby v kódu.

Rowan Cheung, zakladatel zpravodaje o umělé inteligenci The Rundown, sdílel video, na kterém GPT přepisuje ručně nakreslenou falešnou webovou stránku na kusu papíru do kódu.

“Právě jsem sledoval, jak GPT-4 proměnil ručně nakreslenou skicu ve funkční webovou stránku. Je to šílené…”

Rowan Cheung (@rowancheung) 14. března 2023

Klikni na hvězdičky pro hodnocení!

Průměrné hodnocení 5 / 5. Počet hlasujících 2

Buď první kdo článek ohodnotí

Přihlásit k odběru
Upozornit na
guest
0 Komentáře
nejstarší
Nejnovější S nejvíce hlasy
Zpětná vazba na text v článku
Zobrazit všechny komentáře
spot_img