Co to jest parametr w AI? Wyjaśniamy bez żargonu

Q: Co to oznacza dla Ciebie?

Kilka praktycznych wniosków. Po pierwsze: Większy model = wolniejszy i droższy. ChatGPT Plus używa GPT-5 (duży model). Wersja darmowa używa GPT-5 (mniejszy). Różnica w jakości? Zauważalna. Różnica w szybkości? Też. Po drugie: Liczba parametrów to nie wszystko. Claude Sonnet 4.6 konkuruje z GPT-5, mimo że prawdopodobnie ma mniej parametrów. Liczy się architektura, dane treningowe, optymalizacja. Po trzecie: Lokalne modele (te małe, 7-13B parametrów) stają się coraz lepsze. Nie dorównują gigantom,

Redaktor MIT Technology Review obudził się w nocy i zapisał na kartce: "Co to w ogóle jest parametr?"

I właśnie dlatego powstał ten tekst.

Bo wszyscy mówimy o modelach AI z miliardami parametrów. GPT-5 ma ich setki miliardów. Llama 4 - 405 miliardów. Brzmi imponująco. Ale co to właściwie znaczy?

Parametr to po prostu... pokrętło

Wyobraź sobie stary radioodbiornik. Ma pokrętła do głośności, tonów wysokich, niskich. Każde można ustawić w konkretnej pozycji.

Parametr w modelu AI działa podobnie.

To liczba, którą można dostroić. Wartość, którą model "nauczył się" podczas treningu. Każdy parametr wpływa na to, jak AI reaguje na dane wejściowe - dokładnie jak pokrętło basu zmienia brzmienie muzyki.

Konkretniej: parametry to liczby przechowywane w warstwach sieci neuronowej. Kiedy wpisujesz pytanie do modelu, tekst zamienia się na liczby, przepływa przez kolejne warstwy - i na każdym etapie jest mnożony, dodawany i przekształcany właśnie przez te parametry. Wynik na końcu to odpowiedź, którą czytasz. Zmień choćby jeden parametr, a odpowiedź będzie inna. Zmień miliardy - masz zupełnie inny model.

Problem? Zamiast 5 pokręteł masz ich 405 miliardów.

Dlaczego aż tyle?

Bo język jest cholernie skomplikowany.

Żeby model rozumiał kontekst, niuanse, ironię, metafory - potrzebuje ogromnej liczby "pokręteł" do dostrajania. Każde słowo, każda relacja między słowami, każdy wzorzec w tekście wymaga osobnych parametrów.

MIT Technology Review porównuje to do próby odtworzenia symfonii. Jeden instrument? Kilka parametrów. Cała orkiestra? Tysiące. A język ludzki to nie orkiestra - to wszystkie orkiestry świata grające jednocześnie.

Dodaj do tego fakt, że model musi rozumieć nie tylko słowa, ale też ich wzajemne relacje w zdaniu, kontekst z poprzednich akapitów, ton wypowiedzi, a nawet intencję pytającego. Każda z tych warstw znaczenia wymaga osobnych parametrów odpowiedzialnych za wychwytywanie konkretnych wzorców. Dlatego modele językowe są tak duże - nie z kaprysu, ale z konieczności.

Więcej parametrów = lepszy model?

Niekoniecznie.

To jak z megapikselami w aparacie. Przez lata producenci ścigali się w liczbach. 12 megapikseli! 48! 108! Potem okazało się, że liczy się optyka, procesor obrazu, algorytmy.

Z AI podobnie. Model z 70 miliardami parametrów może być lepszy od tego z 400 miliardami - jeśli został lepiej wytrenowany, na lepszych danych, z lepszą architekturą.

Llama 4 od Meta ma wersje: 8B, 70B i 405B parametrów. Ta najmniejsza działa na telefonie. Ta największa wymaga serwerowni. Do większości zadań? Wystarczy ta średnia.

Praktyczna wskazówka: jeśli korzystasz z lokalnych modeli i zastanawiasz się, którą wersję pobrać - zacznij od środkowej. Do pisania maili, streszczania dokumentów, odpowiadania na pytania w jednej dziedzinie, model 70B radzi sobie zaskakująco dobrze. Po większy sięgaj tylko wtedy, gdy faktycznie czujesz, że mniejszy nie daje rady - bo różnica w wymaganiach sprzętowych jest ogromna.

Jak AI "uczy się" tych parametrów?

Proces wygląda tak:

Model dostaje tekst. Próbuje przewidzieć następne słowo. Myli się. Dostosowuje parametry. Próbuje znowu. Myli się mniej. Dostosowuje. I tak miliardy razy.

Jak uczenie się gry na instrumencie. Na początku wszystkie "pokrętła" są ustawione losowo. Brzmi okropnie. Po milionach powtórzeń model znajduje optymalne ustawienia.

Mechanizm dostosowywania parametrów nazywa się wsteczną propagacją błędu. W uproszczeniu: model sprawdza, które parametry najbardziej przyczyniły się do pomyłki, i koryguje je proporcjonalnie do ich "winy". Robi to warstwa po warstwie, od końca sieci do początku. Powtórzone miliardy razy, na ogromnych zbiorach tekstu, daje model, który potrafi pisać, tłumaczyć i rozumować.

Trening GPT-5 kosztował prawdopodobnie ponad 100 milionów dolarów. Głównie na energię elektryczną i serwery. Bo te miliardy parametrów same się nie dostroją.

Co to oznacza dla Ciebie?

Kilka praktycznych wniosków.

Po pierwsze: Większy model = wolniejszy i droższy. ChatGPT Plus używa GPT-5 (duży model). Wersja darmowa używa GPT-5 (mniejszy). Różnica w jakości? Zauważalna. Różnica w szybkości? Też.

Po drugie: Liczba parametrów to nie wszystko. Claude Sonnet 4.6 konkuruje z GPT-5, mimo że prawdopodobnie ma mniej parametrów. Liczy się architektura, dane treningowe, optymalizacja.

Po trzecie: Lokalne modele (te małe, 7-13B parametrów) stają się coraz lepsze. Nie dorównują gigantom, ale do większości zadań wystarczają. I działają na Twoim komputerze, bez wysyłania danych do chmury.

Parametry vs tokeny - nie mieszaj

Częsta pomyłka.

Parametry to "pokrętła" w modelu. Są stałe po zakończeniu treningu. GPT-5 ma X parametrów i tyle zostanie.

Tokeny to jednostki tekstu, które przetwarzasz. "Cześć" to jeden token. "Dzień dobry" to dwa. Każde zapytanie "zużywa" tokeny - i za nie płacisz w API.

Można to porównać do książki kucharskiej i składników. Parametry to przepis - zapisany raz, niezmienny. Tokeny to składniki, które zużywasz przy każdym gotowaniu. Droga książka kucharska nie sprawia, że składniki są tańsze. I odwrotnie - tanie składniki nie poprawią złego przepisu.

Model z miliardami parametrów może przetwarzać tysiące tokenów na sekundę. To dwie różne rzeczy.

Dokąd to zmierza?

Modele rosną. GPT-5 miał 175 miliardów parametrów. GPT-5 prawdopodobnie więcej (OpenAI nie ujawnia). Pojawiają się pogłoski o modelach z bilionami parametrów.

Równolegle dzieje się coś ciekawszego: optymalizacja.

Techniki jak kwantyzacja (zmniejszanie precyzji parametrów) pozwalają zmniejszyć model 4-8 razy przy minimalnej utracie jakości. Pruning (przycinanie) usuwa niepotrzebne parametry. Destylacja przenosi wiedzę z dużego modelu do małego.

Efekt? Model z 70 miliardami parametrów po optymalizacji może działać jak ten z 13 miliardami - ale zachować 95% możliwości.

To zmienia zasady gry. Bo nagle AI przestaje wymagać superkomputera.

Jedno zdanie na koniec

Parametr to liczba, którą AI dostrajało podczas treningu - jedno z miliardów "pokręteł" pozwalających modelowi rozumieć język.

Teraz gdy widzisz "405B parameters", wiesz co to znaczy. I że liczba imponuje, ale nie jest jedynym co się liczy.

Przeczytaj też:

20 pytań o LLM-y, które usłyszysz w 2026 roku
Transformery w Excelu? Tak, da się zrozumieć AI bez kodu
Claude rozdaje kredyty do 200 USD. Ale musisz je odebrać sam

Źródła

MIT Technology Review - What even is a parameter?

Co to jest parametr w AI? Wyjaśniamy bez żargonu

Kurs AI Evolution - od zera do eksperta

Powiązane tematy

Parametr to po prostu... pokrętło

Dlaczego aż tyle?

Więcej parametrów = lepszy model?

Jak AI "uczy się" tych parametrów?

Co to oznacza dla Ciebie?

Parametry vs tokeny - nie mieszaj

Dokąd to zmierza?

Jedno zdanie na koniec

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Co to jest parametr w AI? Wyjaśniamy bez żargonu

Kurs AI Evolution - od zera do eksperta

Powiązane tematy

Parametr to po prostu... pokrętło

Dlaczego aż tyle?

Więcej parametrów = lepszy model?

Jak AI "uczy się" tych parametrów?

Co to oznacza dla Ciebie?

Parametry vs tokeny - nie mieszaj

Dokąd to zmierza?

Jedno zdanie na koniec

Źródła

Ten temat omawiam szerzej na webinarze

Jan Gajos

Może Cię zainteresować

Profesorowie chcą wyrzucić ChatGPT z uczelni. Problem w tym, że to już niemożliwe

OpenAI wyjaśnia AI dla początkujących. Czy warto czytać

Google testuje AI w nadprzewodnictwie. Wyniki zaskakują

Claude 4.8 Opus - Anthropic wypuszcza update po 41 dniach

Mistral AI wchodzi do kokpitów Airbusa. Francuzi grają u siebie

Google pokazuje Gemini 3.5 Flash. Goni Claude Opus 4.7, ale 4x szybciej