Doniesienia że strony światowych potentatów AI – grudzień 2024
Poniżej porcja wiadomości ze świata AI z grudnia ubiegłego roku. W tym okresie działo się bardzo dużo, a newsy są zdominowane przez doniesienia ze strony światowych potentatów AI.
Najważniejsze nowości od OPENAI:
Prezentacja nowych modeli „rozumowania” o3 i o3 mini. Według danych, podanych przez OpenAI, model o3 uzyskał znakomite wyniki wydajnościowe. Wg podanych danych: Uzyskał wynik 75,7% w teście ARC-AGI Semi-Private Evaluation; W konfiguracji o wysokiej mocy obliczeniowej o3 uzyskał wynik 87,5% w tym samym teście; W benchmarku EpochAI Frontier Math, o3 rozwiązał 25,2% problemów, podczas gdy istniejące modele rozwiązały tylko 2%; W teście SWE-Bench Verified, o3 uzyskał 71,7 punktów, o 22,8 punktów więcej niż starszy model o1; Ranking Elo na poziomie 2727 w Codeforces; Na AIME 2024 o3 wykręcił wynik 96,7% (o1 uzyskał 83,3%); W GPQA Diamond, o3 uzyskał wynik 87,7%. Dla porównania o1 uzyskał wynik 78%. Modele z rodziny o3 udostępnione zostały w ograniczonym zakresie do testów bezpieczeństwa, natomiast do szerszego użytku trafią w 2025 roku.
OpenAI zaprezentowało funkcję „Projects”, która ułatwia zadanie zarządzania czatami prowadzonymi z AI. Użytkownik może dzięki niej utworzyć projekt gromadzący informacje dotyczące konkretnego tematu, umieszczając w nim powiązane z nim zasoby, takie jak notatki oraz pliki. Inicjując nową rozmowę z AI na ten temat, użytkownik może wtedy sięgnąć po wszystkie informacje zawarte we wcześniej przygotowanym projekcie.
OpenAI udostępnił powszechnie wyszukiwarkę internetową opartą na AI. nowa wersja ChatGPT Search – opartego na modelu GPT-4o – została „przyspieszona” i może być ustawiona jako domyślna wyszukiwarka dla dowolnej przeglądarki internetowej.
Wprowadzenie modelu o1. Twórcy podkreślają, że model ten powstał w odpowiedzi na opinie użytkowników dotyczące wcześniejszej wersji, o1 Preview, która była dostępna dla wybranych subskrybentów. Poprzednia odsłona spotkała się z zainteresowaniem, lecz użytkownicy zwracali uwagę, że chcieliby więcej inteligencji, większą szybkość oraz lepsze radzenie sobie z rozmaitymi formatami danych, w tym z obrazami. OpenAI podkreśla, że model o1 stanowi duży krok naprzód w stosunku do obecnych modeli, takich jak GPT-4. Wzrost „surowej inteligencji” w zakresie rozumienia i rozwiązywania złożonych problemów jest wyraźny, a wyniki testów prezentowane przez firmę wskazują na odczuwalną poprawę w dziedzinach takich jak matematyka, kodowanie, czy testy analityczne. Ważnym punktem jest tu zdolność do lepszego rozumienia kontekstu i łączenia różnych kompetencji w jednym modelu. W efekcie o1 może być traktowany jako wszechstronny asystent – zarówno dla naukowców i inżynierów, jak i twórców treści poszukujących pomocy w tworzeniu kompleksowych materiałów.
Nowości od Google
Google pochwaliło się pierwszym modelem z rodziny Gemini 2.0, który charakteryzuje się wyraźnym wzrostem wydajności przetwarzania danych i jeszcze niższymi opóźnieniami. Gemini 2.0 w chwili obecnej udostępniany jest w formie testowej dla wybranych deweloperów oraz testerów. Użytkownicy końcowi ekosystemu Google mogą wykorzystywać eksperymentalny model Gemini 2.0 Flash. Gemini 2.0 Flash wykorzystuje wszystkie możliwości wersji 1.5 Flash. Model 2.0 Flash osiąga w kluczowych testach wyższe wyniki niż 1.5 Pro i działa dwukrotnie szybciej, a do tego ma nowe funkcje. Poza multimodalnymi danymi wejściowymi, takimi jak obrazy, filmy i dźwięki, model 2.0 Flash obsługuje teraz także multimodalne dane wyjściowe – natywnie generowane obrazy połączone z tekstem oraz sterowalnym dźwiękiem TTS w wielu językach. Może również natywnie wywoływać narzędzia takie jak wyszukiwarka Google, wykonywać kod oraz uruchamiać zewnętrzne funkcje określone przez użytkownika.
Project Mariner to wczesny prototyp badawczy zbudowany z Gemini 2.0, który bada przyszłość interakcji człowiek-agent, zaczynając od przeglądarki. Jako prototyp badawczy jest w stanie zrozumieć i wnioskować na podstawie informacji na ekranie przeglądarki, w tym pikseli i elementów internetowych, takich jak tekst, kod, obrazy i formularze, a następnie wykorzystuje te informacje za pośrednictwem eksperymentalnego rozszerzenia Chrome do wykonywania zadań za Ciebie.
Projekt Astra: agenci wykorzystujący multimodalne zrozumienie w świecie rzeczywistym
Willow, najnowocześniejszy układ kwantowy. Nowy układ scalony wykazuje korekcję błędów i wydajność, które otwierają drogę do użytecznego, wielkoskalowego komputera kwantowego. Willow ma najnowocześniejszą wydajność w wielu metrykach, co umożliwia dwa główne osiągnięcia. Pierwszym jest to, że Willow może wykładniczo zmniejszać błędy w miarę skalowania przy użyciu większej liczby kubitów. Rozwiązuje to kluczowe wyzwanie w kwantowej korekcji błędów, nad którym ta dziedzina pracuje od prawie 30 lat. Po drugie, Willow wykonał standardowe obliczenia testowe w czasie krótszym niż pięć minut, co jednemu z najszybszych współczesnych superkomputerów zajęłoby 10 septylionów (czyli 10 25 ) lat — liczba ta znacznie przekracza wiek Wszechświata.
Użytkownicy portalu X będącego w posiadaniu Elona Muska mogą skorzystać z chatbota Grok bez dodatkowych opłat. Rozwiązanie, które zintegrowano z X już jakiś czas temu dotychczas dostępne było jedynie dla posiadaczy kont z aktywną subskrypcją Premium.
Meta zaprezentowała swoją najnowszą innowację w przestrzeni AI, Llama 3.3 , 70-miliardowy model języka, który obiecuje dzięki swojej otwartości przełomowe postępy dla społeczności poszukującej rozwiązań niezależnych od głównych dostawców zamkniętych rozwiązań komercyjnych. Dzięki niezrównanej wszechstronności i imponującym możliwościom ten model wyróżnia się jako przełomowy dla deweloperów i firm. Llama 3.3 podnosi poprzeczkę wydajności wyżej, zapewniając podobną jakość wyjściową do 405-miliardowej Llama 3.1, jednocześnie rozszerzając jej funkcjonalność. Kluczowe funkcje obejmują: Wsparcie dla ośmiu języków : Bezproblemowa komunikacja z odbiorcami na całym świecie. Angielski, francuski, włoski, portugalski, hindi, hiszpański, tajski, niemiecki; Integracja z narzędziami innych firm: umożliwia korzystanie z zaawansowanych funkcjonalności, takich jak wywoływanie funkcji w przypadku złożonych zadań; Potężne zrozumienie kontekstu: idealne do zastosowań takich jak całodobowa wielojęzyczna obsługa klienta i automatyczna analiza.
