LMArena
Platforma do testowania modeli AI w trybie bezpośrednich pojedynków. Umożliwia ocenę odpowiedzi, głosowanie na lepsze rezultaty i śledzenie globalnych rankingów.

LMArena to platforma do testowania i rankingu modeli językowych, działająca w oparciu o oceny społeczności. System zestawia ze sobą dwa anonimowe modele, które odpowiadają na to samo zapytanie, a użytkownik wskazuje lepszą propozycję. Dopiero po oddaniu głosu platforma ujawnia nazwy testowanych rozwiązań. Zebrane w ten sposób dane tworzą publiczny ranking oparty na systemie punktacji Elo, odzwierciedlający faktyczną jakość odpowiedzi w realnych zastosowaniach.
Przykładowe funkcje:
- Tryb bitwy (Battle Mode) umożliwiający ślepe porównanie dwóch anonimowych modeli jednocześnie.
- Publiczne rankingi (Leaderboards) kategoryzujące modele pod kątem programowania, tekstów literackich czy zadań matematycznych.
- Możliwość przesyłania plików do analizy przez różne systemy w celu sprawdzenia ich skuteczności.
- Dostęp do modeli w wersji przedpremierowej, które nie są jeszcze powszechnie udostępnione przez producentów.
- Bezpośredni dostęp do konkretnych modeli w celu ich indywidualnego przetestowania bez trybu głosowania.
Przykładowe zastosowania:
- Sprawdzanie, który model najlepiej radzi sobie z pisaniem kodu w konkretnym języku programowania.
- Weryfikacja jakości tłumaczeń lub kreatywnego pisania poprzez zestawienie wyników od różnych dostawców.
- Śledzenie aktualnej pozycji rynkowej nowych modeli AI na podstawie głosów tysięcy użytkowników.
- Testowanie zdolności wizyjnych modeli poprzez przesyłanie obrazów i porównywanie generowanych opisów.
