2022. június 24., péntek

Neural Machine Translation szemantikája

In english;

 In this globalized world, machine translation has become a daily tool in our lives. In the last few  years, neural network’ has become one of the most widespread expressions in a variety of academic  papers. Methods applying the neural network paradigm have brought about scientific breakthroughs in several fields, including computational linguistics and, in particular, machine translation. Today's  high-performance computers can take advantage of the benefits of neural networks.  Neural Machine Translation  structure  is  built  on  an  encoder-decoder  framework.  The  encoder  transforms  a source  language  sentence  into  continuous  space  representation  through  a  recurrent  neural network. Origin of neural networks was inspired by the understanding of the functioning of the human brain, or all connections between neurons. However, in contrast with the human brain, where  neurons  can  freely  interconnect,  artificial  neural  networks  consist  of  discrete  layers, connections, and data dissemination. This paper deals with neural machine translation as a novel approach  that is  examined  by  many  researchers  that  try  to  implement  it  into  already  used frameworks. The results show that neural machine  translation offers an improvement of  the translation output but still has to be evaluated in the future. In  the  beginning,  machine  translation  was  based  mainly  on  Rule-based  Machine Translation (RBMT), the  idea  being to create  grammatical rules  for  the source and  target language. Machine translation acted as a kind of translation between languages  based on this  set  of  rules.  However,  the  problem  was  mainly  the  addition  of  new  content,  new language  pairs,  because  maintaining  and  extending  such  a  set  of  rules  was  too  time-consuming and costly. Statistical Machine Translation (SMT) was created to overcome this problem. SMT systems create statistical models by analyzing an aligned set of source and target language sentences (training set). It is then used to create a translation. The advantage of SMT is its automatic learning process and relatively easy adaptation. The disadvantage of SMT is  the training itself, so it is  necessary to create  a usable tool and  a large database of source and target language segments. The disadvantage is also difficult to work with grammatically more complicated languages. Neural Machine Translation (NMT) has recently started to be promoted for this reason. NMT looks at the sentence as a whole and can form associations between phrases even at greater distances in the sentence. 

Ebben a globalizált világban a gépi fordítás mindennapi eszközzé vált az életünkben. Az elmúlt néhány évben a „neurális hálózat” az egyik legelterjedtebb kifejezéssé vált számos tudományos közleményben. A neurális hálózat paradigmáját alkalmazó módszerek több területen is tudományos áttörést hoztak, beleértve a számítógépes nyelvészetet és különösen a gépi fordítást. A mai nagy teljesítményű számítógépek kihasználhatják a neurális hálózatok előnyeit. A neurális gépi fordítási struktúra kódoló-dekódoló keretrendszerre épül. A kódoló egy forrásnyelvi mondatot egy visszatérő neurális hálózaton keresztül folyamatos térábrázolássá alakít át. A neurális hálózatok eredetét az emberi agy működésének, vagy az idegsejtek közötti összes kapcsolatnak a megértése ihlette. Ellentétben azonban az emberi aggyal, ahol a neuronok szabadon kapcsolódnak egymáshoz, a mesterséges neurális hálózatok diszkrét rétegekből, kapcsolatokból és adatterjesztésből állnak. Ez a cikk a neurális gépi fordítással, mint egy újszerű megközelítéssel foglalkozik, amelyet számos kutató vizsgál meg, akik megpróbálják azt már használt keretrendszerekbe implementálni. Az eredmények azt mutatják, hogy a neurális gépi fordítás javítja a fordítási kimenetet, de a jövőben még értékelni kell. Kezdetben a gépi fordítás főként a szabályalapú gépi fordításon (RBMT) alapult, az ötlet az volt, hogy nyelvtani szabályokat hozzanak létre a forrás- és a célnyelv számára. E szabályrendszer alapján a gépi fordítás egyfajta fordításként működött a nyelvek között. A probléma azonban elsősorban az új tartalommal, új nyelvpárokkal való kiegészítés volt, mert egy ilyen szabályrendszer fenntartása és kiterjesztése túlságosan időigényes és költséges volt. A statisztikai gépi fordítás (SMT) ennek a problémának a megoldására jött létre. Az SMT-rendszerek statisztikai modelleket hoznak létre a forrás- és célnyelvi mondatok egymáshoz igazodó halmazának (oktatókészlet) elemzésével. Ezután fordítás létrehozására használják. Az SMT előnye az automatikus tanulási folyamat és a viszonylag könnyű adaptáció. Az SMT hátránya maga a képzés, ezért szükséges egy használható eszköz és egy nagy adatbázis létrehozása a forrás- és célnyelvi szegmensekből. Hátránya az is, hogy nehéz nyelvtanilag bonyolultabb nyelvekkel dolgozni. Emiatt a közelmúltban elkezdték népszerűsíteni a neurális gépi fordítást (NMT). Az NMT a mondat egészét tekinti, és még a mondatban nagyobb távolságra is képes asszociációkat létrehozni a frázisok között.
A mesterséges intelligencia már szemantikusan is képes fordítani. 103 nyelven képes fordítani a számítógép, ebből 10 nyelvet  szemantikusan azonnal. A lingvisztikai kódok határozzák meg a szematika alapját. A számítógépek még sokáig fognak küzdeni az emberi nyelv komplexitásával. A legnagyobb kihívást a gépek számára a szépirodalom és a regényekben, versekben és színművekben megjelenő szavak okozzák, az apró nüanszok és kifinomult kifejezések. A gép szóról szóra fordít, miközben a nyelvészet által felállított szabályokat követi, ezért a hagyományos fordítórendszerek gyakran képtelenek helyesen értelmezni az irodalmi szövegek jelentését. A fordítandó szót nem tudják az adott mondat, bekezdés vagy oldal kontextusában felfogni, értelmezni. Az új módszer a kontextusban gyökerező értelmezést keresi meg.  A neurális gépi fordítás,(NMT.)lassan de biztosan halad, tanul és fejlődik, hamarosan képes lesz megtanulni a szépirodalom komplex rendszerét is. A Neural Machine Translation mesterséges intelligenciája saját szabályokat teremt magának, sőt megalkotja a saját fordító nyelvét is. Elődjéhez, a Statistical Machine Translation-hoz (SMT), képest lényegesen gyorsabb és kevesebb hibát ejt. A módszer alapja a mesterséges neurális hálózat, amely az emberi agyban levő neuronok modelljére épül, felismeri a szavak jelentését a szövegkörnyezetben, és megtanulja a megismert nyelvtani szabályt. A mentett adatbázisból statisztikai modelleket építve választja ki a helyes jelentéstartalmat. A gép szavakat forgít le, majd eddigi ismeretei alapján érthető mondattá generálja, a kontexus és a szövegösszefüggések figyelembevételével. Ma még az ember magasabb szintű kontextuális megértéssel rendelkezik. A morfológiailag gazdag nyelvek szépirodalma a legnagyobb kihívás az NMT számára, és akkor még nem beszéltünk a költészet tónusairól, alliterációkról, hasonlatokról metaforákról és nyelvi hibákról, amik szinte lehetetlenné teszik a felismerést. Ez nem csalódottság, csupán józan értékítélet. A legnagyobb hasznát persze a hírszerzés és a kémelhárítás aratná le, nem csoda hogy Kína élen jár a kísérletekben. Az NMT lehetővé teszi olyan nyelvek fordítását is, amelyeket korábban még soha nem fordítottak, a nyelvtanulást, és a szépirodalom élvezetét, ezáltal a műveltség forrása is lehet. Egyszerűbb lenne a dolgunk ha alkotnánk egy formális nyelvet, a meglévő bábeli zűrzavar helyett, de erről hallani sem akarnak az emberek. Pedig a formális nyelv egy kötött, minimális szimbólumkészletből és néhány szerkesztési szabályból valamint a hozzá rendelt pontos szemantikából (jelentés) álló rendszer sallangok nélkül. A szimbólumokból a szerkesztési szabályok figyelembe vételével szabályos kifejezések állíthatók össze röviden és gyorsan. A kifejezésekhez a szemantika alapján egyértelmű jelentés tartozik. A formális a matematikai logika által szigorúan definiált fogalom, azonban nemcsak a matematika világában találkozhatunk formális nyelvekkel, de a zenei kottaírás is jó példája a formális nyelv sikerének.

Nézzünk egy gyakori problémát a valós nyelvben;

Például az alszik szinonímáit.

alukál
aluszik
bóbiskol
csicsikál
csucsukál
csucsuzik
delel
durmol
hajcsizik
hál
horpaszt
húzza a lóbőrt
mormol
nyomja az ágyat
pihen
pocol
pőcsikél
szendereg
szundikál
szundít
szundít
szundizik
szunyál
szunnyad
szunyókál
tentézik
tentikél

a mesterséges vagy formális nyelvben csak egy szó van rá, könnyebb az azonosítás, kisebb a háttéri adatbázis! Elérkeztünk arra a pontra, hogy mi, emberek nem látjuk már át hogy saját algoritmusaink melyik pillanatban tudott értelemzést adni a szövegnek, mivel a gép az algoritmust tovább fejlesztette és kibővítette. Az ember nem képes átlátni az algoritmus futása közbeni állapotokat, így nem tud előre jól kiszámítható paraméterbeállításokkal előállni. Igaz, a gépet is és a programokat is mi hoztuk létre, de még ha lépésről lépésre végig követnénk is a működését, arra nem jönnénk rá, hogy melyik az a pont, ahol a rendszer „megértette” az emberi nyelv szavainak az értelmét. 


Lásd még; https://aclanthology.org/2022.acl-long.546.pdf
https://arxiv.org/abs/2204.06812
https://www.researchgate.net/publication/359972952_Learning_to_Generalize_to_More_Continuous_Semantic_Augmentation_for_Neural_Machine_Translation
http://aitime-lundao.oss-cn-beijing.aliyuncs.com/AitimeReport/20220617/1655442091752

Nincsenek megjegyzések:

Megjegyzés küldése