Nowy startup wprowadza ważną funkcjonalność. Porówna modele AI

Ujednolicony test do pomiaru modeli sztucznej inteligencji, zwłaszcza ich wydajności w konkretnych aspektach. To obszar działania startupu Vals.ai, który chce podbić rynek, wykorzystując jego słaby punkt.

Sztuczna inteligencja to obszar technologiczny, w który inwestowane są miliardy dolarów. Praktycznie co miesiąc firmy zajmujące się AI wypuszczają nowe produkty. Zazwyczaj zapewniają przy tym, że ich rozwiązania przewyższają wydajnością te, które są dostępne na rynku. Problemem branży jest fakt, że brak w niej ujednoliconego rozwiązania, które mogłoby tę wydajność porównać.

Warto przeczytać: Ogromne inwestycje w startupy AI. Giganci technologiczni jak Microsoft czy Amazon nie chcą pozostać w tyle

Ustandaryzowany test modeli AI

I właśnie w tym problemie szansę na działanie odnalazł startup Vals.ai. Jak podaje Bloomberg, jego twórcy opracowują rozwiązanie, które pomoże w porównaniu dostępnych narzędzi AI w oparciu o określone, uniwersalne parametry. Startup to pomysł Rayana Krishnana i Langstona Nasholda. 23-latkowie porzucili studia magisterskie na Uniwersytecie Stanforda, by poświęcić się w całości swojemu projektowi. Vais.ai powstał wraz z inżynierem założycielem Rezem Havaei.

Obecnie twórcy prowadzą prace nad opracowaniem ustandaryzowanego testu, który umożliwiłby porównanie wydajności wszystkich dostępnych na rynku modeli AI z podziałem na poszczególne branże. W konsultacjach biorą udział eksperci z obszarów działań konkretnych narzędzi sztucznej inteligencji. Oprócz księgowych, prawników i finansistów w pracach pomagają również naukowcy ze Stanford.

Kluczowe rozwiązanie

O zapotrzebowaniu na tego typu rozwiązanie najlepiej świadczy zainteresowanie powstałym na początku tego roku Vals.ai. Jego założyciele ogłosili, że otrzymali już finansowanie zalążkowe od Pear VC. Inwestorzy widzą duży potencjał proponowanego przez startup narzędzia. Coraz więcej firm będzie chciało korzystać ze sztucznej inteligencji. Tak naprawdę wiele z nich nie wie, które z dostępnych na rynku rozwiązań będzie dla ich działalności najlepsze.

Pierwsze testy

Odpowiedzi przynoszą już pierwsze działania przeprowadzone przez startup. Przedmiotem pierwszego testu były modele AI pomagające w pracy księgowym. W testowaniu Vals.ai korzystało z wiedzy zatrudnionego w startupie księgowego. Zgodnie z informacjami dostępnymi na stronie internetowej startupu najlepszy wynik w tej kategorii osiągnął GPT-4 OpenAI ze współczynnikiem dokładności 54,5%. Drugie miejsce zajął Claude 3 Opus z wynikiem 51,8%. W przypadku Gemini Pro od Google dokładność wyniosła zaledwie 31,3%.

Odnotowane wartości z pewnością zainteresują potencjalnych klientów poszczególnych modeli AI. Wygląda na to, że Vals.ai odnajdując słaby punkt na rynku sztucznej inteligencji, trafiło w sam środek tarczy. A to znacząco zwiększa szansę startupu na końcowy sukces.