Dwa dni temu zakończyła się długo wyczekiwana konferencja Google I/O 2025.
Powiem tak: Google już nie chce dzielić się kawałkiem tortu. Nawet cały tort by ich nie zadowolił. Google, w świecie sztucznej inteligencji, chce być całą piekarnią, mąką, cukrem, mlekiem i jajkiem. Google planuje być alfą i omegą.
Zobaczmy, jak im idzie.
Poniżej znajdziecie wszystkie najistotniejsze premiery, zapowiedzi i prezentacje, jakie miały miejsce w Mountain View w Kalifornii.
Google Beam
Nowa platforma do komunikacji wideo z zaprzęgniętą sztuczną inteligencją (lub, jak to ładnie lubią określać za oceanem, “AI-first solution”).
Co ciekawe, nie będzie to kolejny Google Meet ani Skype, ale namacalne urządzenie wyglądem przypominające spory ekran plazmowy. Prezentuje się następująco:
Razem z HP zbudowali owego “kwadratuska”, którego głównym zadaniem jest wprowadzenie rozmówców w zupełnie nowy wymiar immersyjnych konferencji. Jak? Urządzenie bierze obraz z 6 kamer, zlepia go za pomocą AI i tworzy wrażenie rozmowy twarzą w twarz.
Pierwsze wrażenia uczestników konferencji, którzy mieli okazję testować, są zachowawczo-pozytywne z przewijającą się niepewnością względem praktyczności rozwiązania i ceny sugerującej, że całość kierowana jest raczej do klientów korporacyjnych.
Tłumaczenie w czasie rzeczywistym?
Pozostając w temacie, jedną z dodatkowych premier było zaprezentowanie tłumaczenia w czasie rzeczywistym na spotkaniach Google Meet z obcojęzycznym rozmówcą.
Czemu aż tak się tym nie ekscytuję?
W tym przypadku pozwoliłem sobie być niewiernym Tomaszem. Uwierzę, kiedy zobaczę.
Gemini Live
Kolejne ulepszenia, wciąż zaniedbywanych, wizualnych możliwości sztucznej inteligencji.
Wewnętrzny, googlowski Project Astra zapewnia Gemini Live nowe funkcje, które fajnie zostały zaprezentowane w poniższym filmie. Zwróćcie uwagę na poszerzone zdolności rozpoznawcze, szybkość działania i pamięć roboczą:
Project Mariner
Co kryje się pod tą tajemniczą, morsko-brzmiącą nazwą?
Pff... A co się niby może kryć? Sztuczna inteligencja, rzecz jasna, a dokładniej - szeroko rozumiane agentic capabilities (agentowe umiejętności).
Project Mariner umożliwia sztucznej inteligencji dostęp do przeglądarki, plików na dysku Google, czy w gruncie rzeczy, każdej dostępnej w Internecie treści w celu wykonania powierzonego zadania.
Jakie to mogą być polecenia?
Tutaj oczywiście, kreatywność granicą, ale na oficjalnej stronie, możemy znaleźć kilka zastosowań pobudzających wyobraźnię (kliknij w linki, by zobaczyć podgląd):
Jednak, oglądając demo powyższych zastosowań, nie mogłem przestać się zastanawiać, czy na pewno bym z tego skorzystał. Wszystko wydaje się jakieś mechaniczne, nieludzkie. Gdybym miał zatrudnić człowieka do naprawienia pralki, jestem pewien, że raczej wolałbym manualnie sprawdzić jego opinie, zdjęcie i stawkę, a nie oddawać stery maszynie. To chyba normalne?
Okej, jestem świadomy, że sporo zadań może być z łatwością i przyjemnością oddelegowanych, ale raz po raz, dostrzegam brak niuansowości (istnieje takie słowo?).
Nie wytłumaczę idealnie, w jakim stylu szukam mieszkania. Nie powiem, czym się sugeruję wybierając dentystę. Wreszcie, nie usystematyzuję, w jakich sytuacjach kupiłbym ten sam ser Cheddar, co zawsze, a kiedy wolałbym ‘zaszaleć’ i wybrać produkt konkurencji “na próbę”.
Rozumiecie? Chodzi mi o ten niezastąpiony pierwiastek ludzki, którego nie da się streścić w prompcie.
Chyba że gadam romantyczne głupoty… Może kolejne ogłoszenie z konferencji rozwiąże ten ‘problem’?
Personalizacja & Smart replies
Gmail dostaje nowe możliwości automatycznych, spersonalizowanych odpowiedzi na maile.
Wchodzisz na swoją skrzynkę, otwierasz wiadomości, a przy każdej z nich znajdujesz kilka wariantów gotowych odpowiedzi uwzględniających poprzednie rozmowy, styl komunikacji i wszystkie dane z dokumentów z dysku Google.
Fajne, zaoszczędzające czas rozwiązanie. Przynajmniej na pierwszy rzut oka. Później zaczynam się zastanawiać, czy na pewno chcę się tak bawić? Klikać zgody na każde możliwe udostępnienie danych, by zaoszczędzić trochę czasu i, zgodnie z nurtem, automatyzować wszystko, jak popadnie?
Mam wrażenie, jakby wujek Google żąglował całym moim digitalowym majątkiem, a ja bym tylko stał i klaskał z zachwytu. Co myślicie?
Gemini Diffusion & Deep Think
Gemini 2.5 Pro dostanie nową funkcję głębokiego myślenia (Deep Think), dzięki której wyprzedza rywali w niekończącym się ‘benchmarkowym’ wyścigu.
Natomiast Gemini Diffusion to nowe rozwiązanie (przynajmniej w googlowskim środowisku), które umożliwia szybsze odpowiedzi. Większość modeli działa na zasadzie transformerów, chronologicznie przewidując kolejne słowa. Podejście typu Diffusion oddaje natychmiastowo cały tekst, a dopiero później filtruje go względem poprawności. To tak dla ciekawskich.
Imagen 4
Klasyczek. Nowy, lepszy model do generowania zdjęć na podstawie poleceń tekstowych. Oprócz powalającej jakości generacji i znacznie lepszych struktur (włosy, sierść, skóra) model ma być 10x szybszy niż swój poprzednik.
Veo 3
Chyba muszę być wzrokowcem, bo ogłoszenie i prezentacja Veo 3 zmroziła mnie najmocniej. Wystarczy obejrzeć kilka przykładów wygenerowanych przez ten model, a zaczniecie kwestionować wszystko, co widzicie na ekranach komputerów, telefonów czy telewizorów. Przynajmniej ja tak miałem.
Veo 3, jak wiecie lub nie, to najnowszy model do tworzenia klipów wideo z poleceń tekstowych. Oprócz niewiarygodnej jakości, nowe Veo oferuje…
…Ścieżkę dźwiękową. Tak, dobrze słyszeliście. Każdy klip od Veo 3 jest tworzony z dedykowaną ścieżką dźwiękową. I nie są to byle dźwięki zaparzanej kawy. Oj nie. Mowa tu o pełnych możliwościach dialogowych, muzycznych i dźwiękowych.
Tylko zobaczcie:
Więcej szokujących przykładów znajdziecie tutaj.
Jedynym ograniczeniem przed masową adaptacją jest cena. Veo 3 jest częścią najnowszej, komercyjnej oferty Google’a o nazwie: AI Ultra. Opiewa ona na skromne $250… miesięcznie.
Ponadto, wszystkim zainteresowanym generatywną sztuczną inteligencją, polecam poczytać więcej o Flow (studio do łączenia filmów i zdjęć w spójną całość) i Lyria 2 (model do tworzenia muzyki).
Okulary Android XR
Niepokojąca wiadomość dla Marka Zuckerberga i Tima Cooka - Google wchodzi na rynek okularów AR (Augmented Reality - rozszerzona rzeczywistość) i robi to naprawdę solidnie. Nowe okulary widzą, słyszą, rozmawiają i pokazują.
Na koniec
Jak nietrudno zauważyć, Google zaszalał. Ale pamiętajcie! Oprócz ogromnego zaplecza technologicznego, Google ma także gigantyczny background marketingowo-sprzedażowy. Z tego prostego powodu, potrafią, jak nikt inny, rozdmuchać swoje konferencje, by pozyskać upragnioną uwagę.
Należy zadać proste pytanie: O czym będziemy pamiętali za rok, a ile z tych błyszczących rozwiązań zakurzy się na półce? Tutaj mogę z czystym sumieniem polecić materiał Nate’a B Johns’a:
Najważniejsze newsy z minionego tygodnia:
1. Sam Altman i Jony Ive ogłaszają współpracę
Jony Ive, legendarny apple’owski projektant pierwszych iPhone’ów i Macbook’ów wstępuje w szeregi OpenAI, urzeczywistniając fuzję swojej firmy wycenionej na skromne 6.5 miliarda dolarów. Cała współpraca wydaje się lekko tajemnicza. Jony ma pracować nad, bliżej niedoprecyzowanym, urządzeniem codziennego użytku bazującym na technologii sztucznej inteligencji.
2. Anthropic prezentuje Claude 4
Kiedy już wszyscy zaczynamy zapominać o istnieniu Claude’a, Anthropic przedstawia światu dwa nowe modele: Claude 4 Opus (większy, droższy, lepszy) i Claude 4 Sonnet. Dwa bardzo przyzwoite modele, choć nie wyróżniają się niczym specjalnym. Oprócz oczywiście ceny. Anthropic, jak zawsze, utrudnia produkcyjne korzystanie z ich modeli, naklejając łatkę “premium” na cennik API.
Na końcowy ?uśmiech?
Film wygenerowany całkowicie przez Veo 3. Warto rzucić okiem.
Wielkie dzięki za dziś.
Wszystkiego dobrego,
Mikołaj Abramczuk
W aplikacji mobilnej, niektórzy mogą zobaczyć podwójnie dodany GIF ze skalą użycia tokenów przez Gemini. Nie sposób tego usunąć, jako że mój edytor tego nie widzi :)
To video na końcu jest fascynujące i niepokojące zarazem