Projelere Dön

Nis 2025 – Haz 2025

GemmaTR

Türkçe sohbet botu eksikliğini gidermek için Google Gemma modelini Google Colab üzerinde Unsloth kütüphanesi ve LoRA tekniği kullanarak parçalı şekilde 40 saatlik bir süreçte eğittim; 400.000 Türkçe Wikipedia ve 50.000 hukuk, eğitim, tarım odaklı soru-cevap veri seti oluşturarak 4 farklı model geliştirdim ve bunları HuggingFace platformunda açık kaynak olarak paylaşarak topluluğun erişimine sundum.

Genel Bakış

Türkçe sohbet botu eksikliğini gidermek için Google Gemma modelini Google Colab üzerinde Unsloth kütüphanesi ve LoRA tekniği kullanarak parçalı şekilde 40 saatlik bir süreçte eğittim; 400.000 Türkçe Wikipedia ve 50.000 hukuk, eğitim, tarım odaklı soru-cevap veri seti oluşturarak 4 farklı model geliştirdim ve bunları HuggingFace platformunda açık kaynak olarak paylaşarak topluluğun erişimine sundum.

Problem

Türkçe kullanıcılar, özellikle alan odaklı soru-cevap için İngilizceye kıyasla daha az açık ve özelleştirilmiş sohbet botu kaynağına sahip.

Teknik Yaklaşım

Google Gemma modelini Unsloth ve LoRA ile; Türkçe Wikipedia, hukuk, eğitim ve tarım odaklı soru-cevap verilerini içeren büyük bir Türkçe veri kümesi üzerinde ince ayarladım.

Sonuç

GemmaTR, dört farklı Türkçe model varyantı üretti ve çalışmayı Hugging Face üzerinden topluluk erişimine ve yeniden kullanıma açık hale getirdi.

Teknolojiler

Programlama

Dış Bağlantılar