Kuinka ladata ja asentaa Llama 2 paikallisesti

Kaltaisesi lukijat auttavat tukemaan MUO:ta. Kun teet ostoksen käyttämällä sivustollamme olevia linkkejä, voimme ansaita kumppanipalkkion. Lue lisää.

Meta julkaisi Llama 2:n kesällä 2023. Llaman uusi versio on hienosäädetty 40 % enemmän tokeneita kuin alkuperäinen Llama-malli, mikä kaksinkertaistaa sen kontekstin pituuden ja ylittää huomattavasti muut avoimen lähdekoodin mallit. Nopein ja helpoin tapa päästä Llama 2:een on API:n kautta verkkoalustan kautta. Jos kuitenkin haluat parhaan kokemuksen, Llama 2:n asentaminen ja lataaminen suoraan tietokoneellesi on parasta.

Tätä silmällä pitäen olemme luoneet vaiheittaisen oppaan Text-Generation-WebUI:n käyttämisestä kvantisoidun Llama 2 LLM:n lataamiseen paikallisesti tietokoneellesi.

Miksi Llama 2 asennetaan paikallisesti

On monia syitä, miksi ihmiset valitsevat Llama 2:n suoraan. Jotkut tekevät sen yksityisyyden suojaamiseksi, toiset mukauttamisen vuoksi ja toiset offline-ominaisuuksien vuoksi. Jos tutkit, hienosäädät tai integroit Llama 2:ta projekteihisi, Llama 2:n käyttö API:n kautta ei ehkä ole sinua varten. LLM:n ajamisen paikallisesti tietokoneellasi on vähentää riippuvuutta kolmannen osapuolen tekoälytyökalut ja käytä tekoälyä milloin tahansa, missä tahansa, ilman huolta mahdollisesti arkaluontoisten tietojen vuotamisesta yrityksille ja muille organisaatioille.

Aloitetaan tämän jälkeen vaiheittaisella oppaalla Llama 2:n paikalliseen asentamiseen.

Vaihe 1: Asenna Visual Studio 2019 Build Tool

Asioiden yksinkertaistamiseksi käytämme yhden napsautuksen asennusohjelmaa Text-Generation-WebUI:lle (ohjelma, jota käytetään lataamaan Llama 2 GUI:lla). Jotta tämä asennusohjelma toimisi, sinun on kuitenkin ladattava Visual Studio 2019 Build Tool ja asennettava tarvittavat resurssit.

Ladata: Visual Studio 2019 (Vapaa)

Mene eteenpäin ja lataa ohjelmiston yhteisöversio.
Asenna nyt Visual Studio 2019 ja avaa ohjelmisto. Kun olet avannut, valitse ruutu Työpöytäkehitys C++:lla ja paina asennus.

Nyt kun olet asentanut työpöytäkehityksen C++:lla, on aika ladata Text-Generation-WebUI yhden napsautuksen asennusohjelma.

Vaihe 2: Asenna Text-Generation-WebUI

Text-Generation-WebUI yhden napsautuksen asennusohjelma on komentosarja, joka luo automaattisesti tarvittavat kansiot ja määrittää Conda-ympäristön sekä kaikki tarvittavat vaatimukset tekoälymallin suorittamiseksi.

Asenna komentosarja lataamalla yhden napsautuksen asennusohjelma napsauttamalla Koodi > Lataa ZIP.

Ladata: Text-Generation-WebUI Installer (Vapaa)

Kun olet ladannut, pura ZIP-tiedosto haluamaasi paikkaan ja avaa purettu kansio.
Vieritä kansiossa alaspäin ja etsi käyttöjärjestelmällesi sopiva käynnistysohjelma. Suorita ohjelmat kaksoisnapsauttamalla sopivaa komentosarjaa.
- Jos käytät Windowsia, valitse start_windows erätiedosto
- MacOS:lle, valitse start_macos kuoripaperi
- Linuxille, start_linux shell-skripti.
Virustorjuntasi saattaa luoda hälytyksen; tämä on hyvä. Kehote on vain an virustorjunta väärä positiivinen komentosarjan tai komentosarjan suorittamiseen. Klikkaa Juokse joka tapauksessa .
Pääte avautuu ja asennus alkaa. Alussa asennus keskeytyy ja kysyy, mitä GPU:ta käytät. Valitse tietokoneellesi asennettu GPU-tyyppi ja paina Enter. Jos sinulla ei ole erillistä näytönohjainta, valitse Ei mitään (haluan käyttää malleja CPU-tilassa) . Muista, että CPU-tilassa käyttäminen on paljon hitaampaa verrattuna mallin käyttämiseen erillisellä GPU:lla.
Kun asennus on valmis, voit nyt käynnistää Text-Generation-WebUI paikallisesti. Voit tehdä sen avaamalla haluamasi verkkoselaimen ja kirjoittamalla URL-osoitteeseen annetun IP-osoitteen.
WebUI on nyt valmis käytettäväksi.

Ohjelma on kuitenkin vain mallilataaja. Ladataan Llama 2 mallilataajaa varten.

Vaihe 3: Lataa Llama 2 -malli

On olemassa useita asioita, jotka on otettava huomioon päätettäessä, mitä Llama 2 -iteraatiota tarvitset. Näitä ovat parametrit, kvantisointi, laitteiston optimointi, koko ja käyttö. Kaikki nämä tiedot löytyvät merkittynä mallin nimeen.

Parametrit: Mallin harjoittamiseen käytettyjen parametrien määrä. Suuremmat parametrit tekevät malleista tehokkaampia, mutta suorituskyvyn kustannuksella.
Käyttö: Voi olla joko vakio tai chat. Chat-malli on optimoitu käytettäväksi chatbotina, kuten ChatGPT, kun taas standardi on oletusmalli.
Laitteiston optimointi: Viittaa siihen, mikä laitteisto käyttää mallia parhaiten. GPTQ tarkoittaa, että malli on optimoitu toimimaan erillisellä GPU:lla, kun taas GGML on optimoitu toimimaan suorittimella.
Kvantisointi: Tarkoittaa painojen ja aktivointien tarkkuutta mallissa. Johtamista varten tarkkuus q4 on optimaalinen.
Koko: Viittaa tietyn mallin kokoon.

Huomaa, että jotkin mallit voivat olla järjestetty eri tavalla, eikä niissä välttämättä ole edes samantyyppisiä tietoja. Tämän tyyppinen nimeämiskäytäntö on kuitenkin melko yleinen Hugging Face Mallikirjasto, joten se on silti ymmärtämisen arvoinen.

Tässä esimerkissä malli voidaan tunnistaa keskikokoiseksi Llama 2 -malliksi, joka on koulutettu 13 miljardiin parametriin, jotka on optimoitu chat-päätelmien tekemiseen erillisen CPU:n avulla.

Jos käytössä on erillinen grafiikkasuoritin, valitse a GPTQ malli, kun taas CPU:ta käyttävät valitse GGML . Jos haluat keskustella mallin kanssa kuten ChatGPT:n kanssa, valitse keskustella , mutta jos haluat kokeilla mallia sen kaikilla ominaisuuksilla, käytä standardi malli. Mitä tulee parametreihin, tiedä, että suurempien mallien käyttö tuottaa parempia tuloksia suorituskyvyn kustannuksella. Henkilökohtaisesti suosittelen, että aloitat 7B-mallista. Mitä tulee kvantisointiin, käytä q4:ää, koska se on vain päättelyyn.

Ladata: GGML (Vapaa)

Ladata: GPTQ (Vapaa)

Nyt kun tiedät, mitä Llama 2:n iteraatiota tarvitset, siirry eteenpäin ja lataa haluamasi malli.

Minun tapauksessani, koska käytän tätä ultrabookissa, käytän GGML-mallia, joka on hienosäädetty keskustelua varten, call-2-7b-chat-ggmlv3.q4_K_S.bin.

Kun lataus on valmis, aseta malli paikalleen text-generation-webui-main > mallit .

Nyt kun mallisi on ladattu ja sijoitettu mallikansioon, on aika määrittää mallin latauslaite.

Vaihe 4: Määritä Text-Generation-WebUI

Aloitetaan nyt konfigurointivaihe.

Avaa jälleen kerran Text-Generation-WebUI suorittamalla aloita_(käyttöjärjestelmäsi) tiedosto (katso edelliset vaiheet yllä).
Napsauta GUI:n yläpuolella olevissa välilehdissä Malli. Napsauta mallin pudotusvalikon päivityspainiketta ja valitse mallisi.
Napsauta nyt avattavaa valikkoa Mallin kuormaaja ja valitse AutoGPTQ niille, jotka käyttävät GTPQ-mallia ja cmuuntajat niille, jotka käyttävät GGML-mallia. Napsauta lopuksi Ladata ladataksesi mallisi.
Voit käyttää mallia avaamalla Chat-välilehden ja aloittamalla mallin testauksen.

Onnittelut, olet ladannut Llama2:n paikalliselle tietokoneellesi onnistuneesti!

kuinka suoratoistaa puhelinta xbox oneen

Kokeile muita LLM:itä

Nyt kun tiedät kuinka käyttää Llama 2:ta suoraan tietokoneellasi Text-Generation-WebUI:n avulla, sinun pitäisi pystyä ajamaan myös muita LLM:itä Llaman lisäksi. Muista vain mallien nimeämiskäytännöt ja se, että vain kvantisoidut mallien versiot (yleensä q4-tarkkuudella) voidaan ladata tavallisiin tietokoneisiin. Monet kvantisoidut LLM:t ovat saatavilla HuggingFacessa. Jos haluat tutustua muihin malleihin, etsi TheBloke HuggingFacen mallikirjastosta, niin saatat löytää monia malleja.