Llama 3: novi gigant u svijetu velikih jezičnih modela dolazi optimizira se za Snapdragon čipove
Meta je predstavila Llama 3, revolucionarni model velikog jezika otvorenog koda, a Qualcomm se pridružio snagama kako bi optimizirao performanse Snapdragon čipseta za izravno pokretanje na pametnim telefonima, računalima, VR/AR naočalama i automobilima.
Što je Llama 3?
Llama 3 je najsnažniji dosadašnji model velikog jezika otvorenog koda, koji nudi unaprijed obučene i finopodešene 8B i 70B modele. Nasljeđuje arhitekturu s dekoderom iz Llama 2 i nastavlja koristiti samonadzirani trening za predviđanje sljedećeg markera u nizu riječi.
Referentni rezultati pokazuju da Llama 3 8B značajno nadmašuje Googleove modele Gemma 7B i Mistral 7B Instruct u raznim testovima, uključujući MMLU, GPQA i HumanEval. U izravnoj borbi protiv Claudea Soneta, Mistral Mediuma i GPT-3.5, Llama 3 70B je ostvarila “uvjerljivu pobjedu”. Dodatno, optimizacija nakon treninga značajno smanjuje pogreške, poboljšava dosljednost i bogati raznolikost izlaza.
Kvalitetni podaci, superiorne performanse
Meta je uložila značajna sredstva u prikupljanje visokokvalitetnih podataka za obuku Llama 3. Koristili su se heuristički i NSFW filtri, semantička deduplikacija i klasifikatori teksta za osiguranje besprijekornog skupa podataka. Llama 3 je obučena na 15T tokena iz javnih izvora, što je sedam puta više od Llama 2 i uključuje četiri puta više kodnih podataka.
Meta Code Llama 70B u borbi protiv AI zatvorenog koda
MediaTek najavio pokretatnje Meta Llama 2 za svoje top čipsete
Efikasna obuka i skalabilnost
Osim kvalitete podataka, Llama 3 se ističe i u efikasnosti treninga. Korištena je kombinacija paralelizacije podataka, modela i kanala za obuku najvećeg modela. Obuka je izvedena na dva prilagođena 24K GPU klastera, uz istovremeno korištenje 16K GPU-a s više od 400 TFLOPS računalne iskorištenosti. Razvijen je i novi stog treninga za automatizaciju otkrivanja, rukovanja i održavanja pogrešaka. Meta je također implementirala skalabilne sustave pohrane za smanjenje kontrolnih točaka i troškova. Ove inovacije su rezultirale ukupnim vremenom obuke od 95% i 3 puta većom efikasnošću u odnosu na prethodnika.
Demokratizacija AI i poboljšana sigurnost
Llama 3 proširuje vokabular i povećava duljinu konteksta, postavljajući nove standarde i natkrivajući konkurenciju. Model ne samo da čini napredne AI značajke dostupnima širem krugu programera, već uvodi i značajna poboljšanja u sigurnosti i točnosti obuke. Integriranjem u platforme poput Hugging Face i proširenjem dostupnosti kroz glavne usluge u oblaku, Meta osigurava da Llama 3 bude sveprisutna i moćna sila u svijetu umjetne inteligencije.
U narednim mjesecima, Meta planira predstaviti niz novih modela s multimodalnim, višejezičnim razgovorima i dužim kontekstnim prozorima. Očekuje se da će Llama 3, uz kontinuirani razvoj i inovacije, ostaviti trajan trag u svijetu umjetne inteligencije i otvoriti nova poglavlja u interakciji.




