Nis 2025 – Haz 2025
GemmaTR
Türkçe sohbet botu eksikliğini gidermek için Google Gemma modelini Google Colab üzerinde Unsloth kütüphanesi ve LoRA tekniği kullanarak parçalı şekilde 40 saatlik bir süreçte eğittim; 400.000 Türkçe Wikipedia ve 50.000 hukuk, eğitim, tarım odaklı soru-cevap veri seti oluşturarak 4 farklı model geliştirdim ve bunları HuggingFace platformunda açık kaynak olarak paylaşarak topluluğun erişimine sundum.
Genel Bakış
Türkçe sohbet botu eksikliğini gidermek için Google Gemma modelini Google Colab üzerinde Unsloth kütüphanesi ve LoRA tekniği kullanarak parçalı şekilde 40 saatlik bir süreçte eğittim; 400.000 Türkçe Wikipedia ve 50.000 hukuk, eğitim, tarım odaklı soru-cevap veri seti oluşturarak 4 farklı model geliştirdim ve bunları HuggingFace platformunda açık kaynak olarak paylaşarak topluluğun erişimine sundum.
Problem
Türkçe kullanıcılar, özellikle alan odaklı soru-cevap için İngilizceye kıyasla daha az açık ve özelleştirilmiş sohbet botu kaynağına sahip.
Teknik Yaklaşım
Google Gemma modelini Unsloth ve LoRA ile; Türkçe Wikipedia, hukuk, eğitim ve tarım odaklı soru-cevap verilerini içeren büyük bir Türkçe veri kümesi üzerinde ince ayarladım.
Sonuç
GemmaTR, dört farklı Türkçe model varyantı üretti ve çalışmayı Hugging Face üzerinden topluluk erişimine ve yeniden kullanıma açık hale getirdi.