Wbudowana sztuczna inteligencja

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Podczas tworzenia funkcji za pomocą modeli AI w internecie często polegamy na rozwiązaniach po stronie serwera na potrzeby większych modeli. Dotyczy to zwłaszcza generatywnej AI, w której nawet najmniejsze modele są około tysiąc razy większe niż mediana rozmiaru strony internetowej. Dotyczy to również innych przypadków użycia AI, w których modele mogą mieć rozmiar od 10 do 100 megabajtów.

Modele te nie są współdzielone przez witryny, więc każda z nich musi je pobrać przy wczytaniu strony. Jest to niepraktyczne rozwiązanie dla programistów i użytkowników,

Chociaż AI po stronie serwera to świetna opcja w przypadku dużych modeli, rozwiązania działające na urządzeniu i w modelu hybrydowym mają swoje atrakcyjne zalety. Aby takie podejście było realne, musimy wziąć pod uwagę wielkość i sposób dostarczania modeli.

Dlatego opracowujemy interfejsy API platformy internetowej i funkcje przeglądarki, które mają na celu integrację modeli AI, w tym dużych modeli językowych (LLM), bezpośrednio w przeglądarce. Obejmuje to Gemini Nano, najefektywniejszą wersję rodziny LLM z rodziny Gemini, która działa lokalnie na większości współczesnych komputerów stacjonarnych i laptopów. Dzięki wbudowanej AI witryna lub aplikacja internetowa mogą wykonywać zadania oparte na AI bez konieczności wdrażania własnych modeli AI i zarządzania nimi.

Odkryj zalety wbudowanej AI, nasz plan implementacji i dowiedz się, jak ją wykorzystać.

Skorzystaj z wcześniejszej wersji przedpremierowej

Potrzebujemy informacji, które pomogą nam kształtować interfejsy API i dbać o to, aby spełniały one Twoje przypadki użycia, a także wziąć udział w dyskusjach z innymi dostawcami przeglądarek w celu ich ustandaryzowania.

Dołącz do naszego programu wczesnej wersji przedpremierowej, aby podzielić się opiniami na temat wczesnych etapów wbudowanych pomysłów na AI i odkryć możliwości testowania gotowych interfejsów API z wykorzystaniem lokalnych prototypów.

Dołącz do grupy publicznych ogłoszeń dla deweloperów Chrome AI, aby otrzymywać powiadomienia o udostępnieniu nowych interfejsów API.

Zalety wbudowanej AI dla programistów stron internetowych

Dzięki wbudowanej AI przeglądarka udostępnia modele podstawowe i eksperckie oraz nimi zarządza.

W porównaniu z samodzielną sztuczną inteligencją na urządzeniu wbudowana AI zapewnia te korzyści:

  • Łatwość wdrożenia: w miarę dystrybucji modeli przeglądarka bierze pod uwagę możliwości urządzenia i zarządza aktualizacjami modelu. Oznacza to, że nie ponosisz odpowiedzialności za pobieranie ani aktualizowanie dużych modeli przez sieć. Nie musisz rozwiązywać problemów związanych z usuwaniem miejsca na dane, budżetem pamięci środowiska wykonawczego, kosztami obsługi i innymi wyzwaniami.
  • Dostęp do akceleracji sprzętowej: środowisko wykonawcze AI przeglądarki jest zoptymalizowane pod kątem jak najlepszego wykorzystania dostępnego sprzętu, niezależnie od tego, czy jest to GPU, NPU czy CPU. Dzięki temu aplikacja może uzyskiwać najlepszą wydajność na każdym urządzeniu.

Zalety korzystania z aplikacji na urządzeniu

W przypadku wbudowanego podejścia opartego na AI wykonywanie zadań AI na urządzeniu staje się proste, co z kolei ma takie zalety:

  • Lokalne przetwarzanie danych wrażliwych: sztuczna inteligencja działająca na urządzeniu pomoże Ci zadbać o ochronę prywatności użytkowników. Jeśli na przykład pracujesz z danymi wrażliwymi, możesz oferować użytkownikom funkcje AI z pełnym szyfrowaniem.
  • atrakcyjne wrażenia dla użytkowników: w niektórych przypadkach rezygnacja z przesyłania danych do serwera pozwala na uzyskanie niemal natychmiastowych wyników. Sztuczna inteligencja na urządzeniu może odróżniać funkcjonalną funkcję od nieoptymalnej wygody użytkownika.
  • Większy dostęp do AI: urządzenia użytkowników mogą nieco obciążać procesory w zamian za dostęp do większej liczby funkcji. Jeśli na przykład oferujesz funkcje premium oparte na AI, możesz wyświetlić ich podgląd z wykorzystaniem AI na urządzeniu, aby potencjalni klienci mogli poznać zalety Twojego produktu bez dodatkowych kosztów. To podejście hybrydowe może pomóc w zarządzaniu kosztami wnioskowania, zwłaszcza w przypadku często używanych przepływów użytkowników.
  • Wykorzystanie AI offline: użytkownicy mogą korzystać z funkcji AI nawet wtedy, gdy nie mają po��ączenia z internetem. Oznacza to, że witryny i aplikacje internetowe mogą działać zgodnie z oczekiwaniami w trybie offline lub ze zmiennym połączeniem.

Hybrydowa AI: po stronie urządzenia i serwera

Sztuczna inteligencja działająca na urządzeniu może obsłużyć szeroką gamę przypadków użycia, ale niektóre sytuacje wymagają obsługi po stronie serwera.

Możesz na przykład potrzebować większych modeli lub obsługi większej liczby platform i urządzeń.

Możesz zastosować metody hybrydowe w zależności od tych czynników:

  • Złożoność: konkretne, przystępne przypadki użycia są łatwiejsze do obsługi dzięki AI na urządzeniu. W złożonych przypadkach warto rozważyć wdrożenie po stronie serwera.
  • Odporność: domyślnie po stronie serwera i na urządzeniu, gdy urządzenie jest offline lub ma słabe połączenie.
  • Bezproblemowe działanie kreacji zastępczej: wdrożenie przeglądarek z wbudowaną AI może trochę potrwać, niektóre modele mogą być niedostępne, a starsze lub mniej wydajne urządzenia mogą nie spełniać wymagań sprzętowych dotyczących optymalnego działania wszystkich modeli. Zaoferuj tym użytkownikom sztuczną inteligencję po stronie serwera.

W przypadku modeli Gemini możesz korzystać z integracji backendu (z Pythonem, Go, Node.js lub REST) albo wdrożyć w swojej aplikacji internetowej nowy pakiet SDK klienta AI od Google do aplikacji internetowych.

Architektura przeglądarki i interfejsy API

Aby obsługiwać wbudowaną AI w Chrome, stworzyliśmy infrastrukturę dającą dostęp do modeli podstawowych i eksperckich do obsługi na urządzeniu. Ta infrastruktura już wykorzystuje innowacyjne funkcje przeglądarek, takie jak Pomóż mi napisać, a wkrótce będzie również obsługiwać interfejsy API AI działające na urządzeniu.

Dostęp do wbudowanych funkcji AI będziesz mieć głównie za pomocą interfejsów API zadań, takich jak translation API lub interfejs API do podsumowania. Interfejsy API zadań są zaprojektowane tak, aby uruchamiać wnioskowanie z użyciem najlepszego modelu dla danego przypisania.

W Chrome te interfejsy API są stworzone do wnioskowania względem Gemini Nano z dostrajaniem lub z modelem eksperckim. Gemini Nano, zaprojektowany z myślą o działaniu lokalnie na większości nowoczesnych urządzeń, doskonale sprawdza się w przypadkach użycia związanych z językiem, takich jak podsumowywanie, przeformułowywanie czy kategoryzowanie.

Planujemy też udostępnić eksploracyjne interfejsy API, aby umożliwić eksperymentowanie lokalne i udostępnianie dodatkowych przypadków użycia.

Możemy na przykład udostępnić:

  • Prompt API: wyślij dowolne zadanie wyrażone w języku naturalnym do wbudowanego dużego modelu językowego (Gemini Nano w Chrome).
  • Interfejs API dostrajania (LoRA): popraw wydajność wbudowanego modelu LLM w danym zadaniu, dostosowując wagi modelu za pomocą dostrajania dostrajania niskiego rankingu.
Ten schemat pokazuje, w jaki sposób witryna lub aplikacja może korzystać z interfejsów API do zadań i eksploracyjnych platform internetowych, aby uzyskać dostęp do modeli wbudowanych w Chrome.

Kiedy używać wbudowanej AI

Oto kilka korzyści, jakich wbudowana AI może przynieść Tobie i Twoim użytkownikom:

  • Korzystanie z treści opartych na AI: m.in. streszczanie, tłumaczenie, odpowiadanie na pytania o niektóre treści, ich kategoryzację i opisy.
  • Tworzenie treści przy użyciu AI: na przykład pomoc w pisaniu, korekta, korekta gramatyki i zmiany sformułowań.

Co dalej?

Dołącz do naszego programu wczesnej wersji przedpremierowej, aby poeksperymentować z wbudowanymi interfejsami API AI na wczesnym etapie rozwoju.

Informacje o tym, jak używać Gemini Pro na serwerach Google w przypadku swoich witryn i aplikacji internetowych, możesz się dowiedzieć z krótkiego wprowadzenia do Google AI JavaScript SDK.