Süni intellekt haqqında danışanda çox vaxt nəticəni görürük: sual veririk, cavab alırıq, amma arxada nə baş verdiyinin tam olaraq fərqində olmuruq. Müasir dil modellərinin arxasında duran əsas mexanizm “transformer” adlanır və bu arxitektura dil emalı qaydalarını artıq kökündən dəyişib. Bəs buna necə nail olub?
Transformer-dən əvvəl istifadə olunan modellər mətni ardıcıl şəkildə oxuyurdu. Təsəvvür edin ki, bir kitab oxuyursunuz və limitli yaddaşa sahibsiniz. Bu o deməkdir ki, hər yeni cümləni başa düşmək üçün yalnız əvvəlki bir neçə sözü xatırlaya bilirsiniz. Əgər cümlə uzundursa və əvvəlində vacib bir detal varsa, onu tez unuda bilərsiniz. RNN (Recurrent Neural Networks) və LSTM (Long-Short Term Memory) kimi modellər məhz belə işləyirdi. Onlar sözləri bir-bir oxuyur və məzmunu yadda saxlamağa çalışırdı, amma mətn uzandıqca əvvəlki məlumata çatmaq çətinləşirdi.
Transformer isə fərqli yanaşma gətirdi. Belə ki, o, digər modellərdən fərqli olaraq mətni ardıcıl oxumur, bütün məzmuna eyni anda baxır. İnsanlar kimi bir cümləni oxuyanda da sadəcə son sözü yox, ümumi məzmunu anlayır. Amma bunu riyazi hesablamalar vasitəsilə edir.
Məsələn, belə bir cümləyə göz gəzdirək: “Kartım bloklanıb, çünki şübhəli əməliyyat aşkar edilib.” Bu cümlədə “bloklanıb” sözünün səbəbi “şübhəli əməliyyat”dır. Transformer hər sözü digər sözlərlə müqayisə edir və onların arasında əlaqə dərəcəsini hesablayır. O anlayır ki, “çünki” sözü səbəb əlaqəsi yaradır və əsas informasiya həmin hissədədir. Bu mexanizmə “attention” (diqqət mexanizmi) deyilir. Sadə dildə desək, model hər söz üçün qərar verir ki, digər sözlərdən hansına daha çox diqqət etməlidir.
Bu yanaşmanın üstünlüyü xüsusilə uzun və mürəkkəb mətnlərdə ortaya çıxır. Məsələn, hüquqi bir müqavilədə belə bir cümlə yazılıb: “Əgər tərəf öhdəliyi yerinə yetirməzsə, digər tərəf müqaviləni ləğv edə bilər.” Burada şərt, hadisə və nəticə var. Transformer bu əlaqəni bir struktur kimi görür. O başa düşür ki, “yerinə yetirməzsə” şərt (risk) hadisəsi, “ləğv edə bilər” isə nəticədir. Köhnə modellər uzun sənədlərdə bu cür əlaqələri itirə bilirdi, amma transformer məsafədən asılı olmadan sözlər arasında körpü qura bilir.