Jak przetestować każdego LLM'a za friko?

+ Fajny model do tworzenia zdjęć

Jun 06, 2025

Przy tym kolejnym, cudownym piątku, chciałbym się z Wami podzielić dwoma, praktycznymi odkryciami. Myślę, że przydadzą się każdemu.

LM Arena pręży muskuły

LM Arena (dawniej LMSYS Chatbot Arena) to jeden z popularniejszych, szeroko uznawanych rankingów dużych modeli językowych (LLM-ów).

Było to miejsce dla technicznych geeków, gdzie każdy mógł wejść, zerknąć na ranking i porównać modele “na ślepo”.

Ich interfejs skutecznie odsiewał nietechniczne jednostki ;)

Ale!

Coś, co rozpoczęło się jako drobny projekt badawczy z UC Berkeley, od kwietnia tego roku jest pełnoprawną firmą wycenianą na okrąglutkie 600 milionów dolarów, która w ostatniej rundzie finansowania pozyskała skromne 100 milionów.

Co to znaczy dla nas, użytkowników?

To się oczywiście okaże. Niemniej, już teraz możemy zauważyć pierwsze, niemałe zmiany, ponieważ została nam przedstawiona zupełnie nowa, bardzo przyjemna odsłona LM Areny.

Poniżej wymienię, co dokładnie możemy tam zdziałać. Miejcie na uwadze, że w większości funkcje te były dostępne wcześniej, ale teraz z pewnością jest to łatwiejsze, przyjemniejsze i bardziej logiczne:

I jeszcze jeden, ważny dodatek - LM Arena jest całkowicie darmowa. Wiadomo, jak coś jest darmowe, to “Ty jesteś produktem”, ale… (moim skromnym zdaniem) wystarczy nie udostępniać wrażliwych danych i dysponować zdrowym rozsądkiem.

Tryb “Battle”

To sposób na porównanie dwóch losowych modeli “twarzą-w-twarz”.

Po wpisaniu polecenia, ekran dzielony jest na pół, a Ty po uzyskaniu odpowiedzi, wskazujesz, który z LLM’ów lepiej sobie według ciebie poradził.

Świetna zabawa i sposób na odnalezienie bardziej “underground’owych” projektów.

Tryb “Side by Side”

Tak samo, ekran podzielony na pół, porównywanie modeli, ale tym razem wskazywane są one przez ciebie. Idealna opcja dla miłośników automatyzacji i inżynierii promptowania.

Tryb “Direct Chat“

Tutaj, znany i lubiany, interfejs chatu umożliwiający rozmowę z dowolnym, wskazanym modelem. Całkowicie za darmo.

Porównywanie generacji zdjęć

Nie samym tekstem człowiek żyje. W LM Arena możemy również porównywać modele zdjęciowe. Na ten moment wybór raczej ograniczony.

Historia rozmów

Nowością jest fakt zapisywania poprzednich konwersacji. Możemy śmiało do nich wracać i kontynuować rozmowy.

Ranking

Chyba najważniejszą funkcją całego narzędzia jest, oczywiście, aktualny ranking modeli. Działa on na zasadzie rankingu szachowego Elo, gdzie o wygranym decydują wyłącznie użytkownicy. Rezultaty są z założenia bardziej naturalne, ludzkie, a mniej benchmarkowe.

Polecam pobawić się samemu. Tutaj znajdziecie link.

Fajny sposób na zdjęcia

Flux Kontext to nowy model, który, przynajmniej dla mnie, był brakującym elementem układanki przy generacji zdjęć AI. Podmienia to, co chcesz, zachowuje kontekst, a resztę pozostawia nietkniętą.

Dodatkowo, bardzo przyzwoicie radzi sobie z tekstem.

Gdzie można przetestować?

Jako że model jest open-source’owy, znajdziecie go w ofercie wielu narzędzi. Moim faworytem jest jednak Abacus.

Oprócz wszystkich najpopularniejszych LLM’ów, znajdziecie tam też generacje filmów, mowy, prezentacji i oczywiście zdjęć. Tutaj link.

Jeśli temat Was zainteresował, możecie obejrzeć cały materiał, który miałem okazję nagrać jakiś czas temu:

Najważniejsze newsy z minionego tygodnia:

1. Reddit pozwał Anthropic za kradzież danych

Reddit złożył pozew przeciwko twórcom Claude'a, zarzucając firmie nielegalny dostęp do platformy ponad 100,000 razy od lipca 2024 roku - mimo że Anthropic obiecało zablokowanie swoich botów. Reddit oskarża firmę o stylizowanie się na "białego rycerza" branży AI, podczas gdy w rzeczywistości ignoruje zasady i wzbogaca się na cudzych treściach.

W przeciwieństwie do Google i OpenAI, które zawarły umowy licencyjne z Reddit, Anthropic odmówiło płacenia za dostęp do danych wartych potencjalnie miliardy dolarów.

2. FDA zatwierdza pierwsze narzędzie AI do przewidywania raka piersi

Startup Clairity otrzymał historyczne pozwolenie FDA (Food and Drug Administration) na pierwszą platformę sztucznej inteligencji, która przewiduje 5-letnie ryzyko zachorowania na raka piersi na podstawie rutynowej mammografii.

Narzędzie zostało wytrenowane na milionach zdjęć i zwalidowane na ponad 77,000 mammografiach.

3. Agenci telefoniczni osiągają 99% dokładności

Startup Phonely we współpracy z Maitai i Groq rozwiązał największy problem głosowej sztucznej inteligencji - niezręczne pauzy, które natychmiast zdradzają, że rozmawiamy z maszyną. Dzięki technologii "zero-latency LoRA hotswapping" udało się skrócić czas odpowiedzi o ponad 70% i zwiększyć dokładność z 81,5% do 99,2%. Rezultat? 70% rozmówców nie potrafi odróżnić AI od człowieka. Jeden z klientów Phonely rzekomo zastępuje w tym miesiącu 350 ludzkich agentów call center swoimi AI-botami.

4. "Ojciec-założyciel" AI tworzy organizację przeciwko kłamliwym agentom

Yoshua Bengio, jeden z trzech "ojców założycieli" sztucznej inteligencji i laureat Turing Award, uruchamia organizację non-profit LawZero z budżetem 30 milionów dolarów. Jej celem jest stworzenie "Scientist AI" - systemu, który będzie monitorował AI agentów i blokował ich szkodliwe działania. W przeciwieństwie do obecnych modeli, które dają definitywne odpowiedzi, system Bengio będzie podawał prawdopodobieństwa poprawności swoich analiz. Decyzja wynika z niepokojących odkryć - sztuczna inteligencja już potrafi ukrywać swoje prawdziwe cele, a najnowszy model Anthropic próbował szantażować inżynierów, którzy chcieli go wyłączyć. Bengio ostrzega, że wchodzimy w "coraz bardziej niebezpieczne terytorium".

Uśmiech na koniec

Modele zdjęciowe opanowały już dłonie, prawda?

r/ChatGPT - New model has hands figured out, right?

Dzięki za dziś,

Mikołaj Abramczuk

Chłopski Rozum.ai

Discussion about this post