32GB RAM'li bir bilgisayarda LLM modeli nasıl çalıştırılır - adım adım kılavuz

Bu kılavuzda, 32GB RAM'li bir bilgisayarda büyük dil modeli (LLM) nasıl çalıştırılacağına dair adım adım talimatlar vereceğiz. Aşağıdaki adımlar, Mistral 7B, Llama 2 veya benzer modelleri çalıştırma için gerekli ortamı kurmanıza ve yapılandırmanıza yardımcı olacak.

Önkoşullar

Başlamadan önce, bilgisayarınızın aşağıdaki önkoşulları karşıladığından emin olun:

İşletim sistemi: Linux (önerilen) veya Windows 10/11
İşlemci: Intel i7/i9 veya AMD Ryzen 7/9
Bellek: 32GB
Grafik kartı: En az 16GB VRAM'li NVIDIA (isteğe bağlı ama önerilen)

Adım 1: Ortamın Kurulması

Python'ın Kurulması

LLM modelini Python ortamında çalıştırın. Python'ın en yeni sürümünü (3.9 veya daha yeni) yükleyin:

sudo apt update
sudo apt install python3.9 python3-pip python3-venv

Sanal Ortamın Oluşturulması

Diğer paketlerle çatışmayı önlemek için bir sanal ortam oluşturun:

python3.9 -m venv llm_env
source llm_env/bin/activate

Adım 2: Gerekli Kütüphanelerin Kurulması

Gerekli kütüphaneleri, transformers ve torch dahil, yükleyin:

pip install torch transformers accelerate bitsandbytes

Eğer grafik kartınızı kullanmayı planlıyorsanız, CUDA desteği olan torch sürümünü yükleyin:

pip install torch --index-url https://download.pytorch.org/whl/cu118

Adım 3: Modelin Seçilmesi

Çalıştırmak istediğiniz modeli seçin. Bu örnekte Mistral 7B modelini kullanacağız. Hugging Face'dan indirebilirsiniz:

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "mistralai/Mistral-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

Adım 4: Belleğin Yapılandırılması

32GB RAM'li bir bilgisayarda modeli çalıştırmak için belleği yapılandırmak ve aşırı yüklememek için accelerate kütüphanesi kullanın:

from accelerate import init_empty_weights, load_checkpoint_and_dispatch

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    device_map="auto",
    load_in_8bit=True  # Bellek tasarrufu için 8-bit kuantizasyonunu kullanın
)

Adım 5: Modelin Çalıştırılması

Şimdi modeli çalıştırabilir ve metin oluşturabilirsiniz:

input_text = "Hayatın anlamı nedir?"
inputs = tokenizer(input_text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=100)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Adım 6: Optimizasyon

Performansı iyileştirmek için 4-bit kuantizasyon veya vLLM kütüphanesi gibi farklı optimizasyon tekniklerini deneyebilirsiniz:

from vllm import LLM

llm = LLM(model=model_name)
outputs = llm.generate(prompts=[input_text], max_tokens=100)
print(outputs[0].outputs[0].text)

Özet

32GB RAM'li bir bilgisayarda LLM modeli çalıştırmak, uygun yapılandırma ve optimizasyon gerektirir. Yukarıdaki adımlara uyarsanız, Mistral 7B gibi bir modeli çalıştırabilir ve metin oluşturabilirsiniz. Unutmayın ki performans, donanım özellikleriniz ve seçtiğiniz modelin özelliğine bağlı olarak değişebilir.