Tesztkörnyezetet hoztak létre annak értékelésére, hogy kinek a munkája

On febr 22, 2025

A nemzetközi tudósok csoportja kifejlesztett egy Computer Agent Arena Alapítványt, amelynek célja a számítógépes ügynökök mesterséges intelligenciával történő ellenőrzése és fejlesztése. A projekt a Waterloo Egyetemen, a Hongkongi Egyetemen, a Salesforce Research -en és a Carnegie Mellon Egyetemen részvételével foglalkozik.

Tesztkörnyezetet hoztak létre annak értékelésére, hogy kinek a munkája

A számítógépes asszisztensek olyan programok, amelyek emberi beavatkozás nélkül elvégzik a feladatokat. Az ilyen asszisztensekre példa a Siri hangsegéd, aki üzeneteket küldhet és találkozókat tarthat. A modern aissisták azonban nehézségekkel szembesülnek olyan összetett feladatok elvégzésében, amelyek interakciót igényelnek a különböző alkalmazásokkal. Például a határjelentés nehéz lehet, mivel szükség van az adatok megtalálására betűkkel, kivonatokban és táblákban.

A Computer Agent Aréna lett az első platform, amely ellenőrzi az AISSTY -t egy valódi számítógépes környezetben. Ez a korábbi Osworld projekt fejlesztése – a multimodális rendszerek működésének első bővítési környezete.

Az egyik fejlesztő, a Waterloo Viktor Zhong Egyetem professzora szerint az új környezet lehetővé teszi a különböző AI modellek összehasonlítását a nyelvi és vizuális technológiákon. A felhasználók az operációs rendszert, az alkalmazásokat (például a Google Chrome vagy az Excel) választják, majd beállítják az asszisztens feladatát, majd a rendszer valós időben összehasonlítva a feladat teljesítményét két különböző modellel.