Szabó László István író, költő, az informatika tudományok tanára: Neural Machine Translation szemantikája

In english;

In this globalized world, machine translation has become a daily tool in our lives. In the last few years, neural network’ has become one of the most widespread expressions in a variety of academic papers. Methods applying the neural network paradigm have brought about scientific breakthroughs in several fields, including computational linguistics and, in particular, machine translation. Today's high-performance computers can take advantage of the benefits of neural networks. Neural Machine Translation structure is built on an encoder-decoder framework. The encoder transforms a source language sentence into continuous space representation through a recurrent neural network. Origin of neural networks was inspired by the understanding of the functioning of the human brain, or all connections between neurons. However, in contrast with the human brain, where neurons can freely interconnect, artificial neural networks consist of discrete layers, connections, and data dissemination. This paper deals with neural machine translation as a novel approach that is examined by many researchers that try to implement it into already used frameworks. The results show that neural machine translation offers an improvement of the translation output but still has to be evaluated in the future. In the beginning, machine translation was based mainly on Rule-based Machine Translation (RBMT), the idea being to create grammatical rules for the source and target language. Machine translation acted as a kind of translation between languages based on this set of rules. However, the problem was mainly the addition of new content, new language pairs, because maintaining and extending such a set of rules was too time-consuming and costly. Statistical Machine Translation (SMT) was created to overcome this problem. SMT systems create statistical models by analyzing an aligned set of source and target language sentences (training set). It is then used to create a translation. The advantage of SMT is its automatic learning process and relatively easy adaptation. The disadvantage of SMT is the training itself, so it is necessary to create a usable tool and a large database of source and target language segments. The disadvantage is also difficult to work with grammatically more complicated languages. Neural Machine Translation (NMT) has recently started to be promoted for this reason. NMT looks at the sentence as a whole and can form associations between phrases even at greater distances in the sentence.

Ebben a globalizált világban a gépi fordítás mindennapi eszközzé vált az életünkben. Az elmúlt néhány évben a „neurális hálózat” az egyik legelterjedtebb kifejezéssé vált számos tudományos közleményben. A neurális hálózat paradigmáját alkalmazó módszerek több területen is tudományos áttörést hoztak, beleértve a számítógépes nyelvészetet és különösen a gépi fordítást. A mai nagy teljesítményű számítógépek kihasználhatják a neurális hálózatok előnyeit. A neurális gépi fordítási struktúra kódoló-dekódoló keretrendszerre épül. A kódoló egy forrásnyelvi mondatot egy visszatérő neurális hálózaton keresztül folyamatos térábrázolássá alakít át. A neurális hálózatok eredetét az emberi agy működésének, vagy az idegsejtek közötti összes kapcsolatnak a megértése ihlette. Ellentétben azonban az emberi aggyal, ahol a neuronok szabadon kapcsolódnak egymáshoz, a mesterséges neurális hálózatok diszkrét rétegekből, kapcsolatokból és adatterjesztésből állnak. Ez a cikk a neurális gépi fordítással, mint egy újszerű megközelítéssel foglalkozik, amelyet számos kutató vizsgál meg, akik megpróbálják azt már használt keretrendszerekbe implementálni. Az eredmények azt mutatják, hogy a neurális gépi fordítás javítja a fordítási kimenetet, de a jövőben még értékelni kell. Kezdetben a gépi fordítás főként a szabályalapú gépi fordításon (RBMT) alapult, az ötlet az volt, hogy nyelvtani szabályokat hozzanak létre a forrás- és a célnyelv számára. E szabályrendszer alapján a gépi fordítás egyfajta fordításként működött a nyelvek között. A probléma azonban elsősorban az új tartalommal, új nyelvpárokkal való kiegészítés volt, mert egy ilyen szabályrendszer fenntartása és kiterjesztése túlságosan időigényes és költséges volt. A statisztikai gépi fordítás (SMT) ennek a problémának a megoldására jött létre. Az SMT-rendszerek statisztikai modelleket hoznak létre a forrás- és célnyelvi mondatok egymáshoz igazodó halmazának (oktatókészlet) elemzésével. Ezután fordítás létrehozására használják. Az SMT előnye az automatikus tanulási folyamat és a viszonylag könnyű adaptáció. Az SMT hátránya maga a képzés, ezért szükséges egy használható eszköz és egy nagy adatbázis létrehozása a forrás- és célnyelvi szegmensekből. Hátránya az is, hogy nehéz nyelvtanilag bonyolultabb nyelvekkel dolgozni. Emiatt a közelmúltban elkezdték népszerűsíteni a neurális gépi fordítást (NMT). Az NMT a mondat egészét tekinti, és még a mondatban nagyobb távolságra is képes asszociációkat létrehozni a frázisok között.

A mesterséges intelligencia már szemantikusan is képes fordítani. 103 nyelven képes fordítani a számítógép, ebből 10 nyelvet szemantikusan azonnal. A lingvisztikai kódok határozzák meg a szematika alapját. A számítógépek még sokáig fognak küzdeni az emberi nyelv komplexitásával. A legnagyobb kihívást a gépek számára a szépirodalom és a regényekben, versekben és színművekben megjelenő szavak okozzák, az apró nüanszok és kifinomult kifejezések. A gép szóról szóra fordít, miközben a nyelvészet által felállított szabályokat követi, ezért a hagyományos fordítórendszerek gyakran képtelenek helyesen értelmezni az irodalmi szövegek jelentését. A fordítandó szót nem tudják az adott mondat, bekezdés vagy oldal kontextusában felfogni, értelmezni. Az új módszer a kontextusban gyökerező értelmezést keresi meg. A neurális gépi fordítás,(NMT.)lassan de biztosan halad, tanul és fejlődik, hamarosan képes lesz megtanulni a szépirodalom komplex rendszerét is. A Neural Machine Translation mesterséges intelligenciája saját szabályokat teremt magának, sőt megalkotja a saját fordító nyelvét is. Elődjéhez, a Statistical Machine Translation-hoz (SMT), képest lényegesen gyorsabb és kevesebb hibát ejt. A módszer alapja a mesterséges neurális hálózat, amely az emberi agyban levő neuronok modelljére épül, felismeri a szavak jelentését a szövegkörnyezetben, és megtanulja a megismert nyelvtani szabályt. A mentett adatbázisból statisztikai modelleket építve választja ki a helyes jelentéstartalmat. A gép szavakat forgít le, majd eddigi ismeretei alapján érthető mondattá generálja, a kontexus és a szövegösszefüggések figyelembevételével. Ma még az ember magasabb szintű kontextuális megértéssel rendelkezik. A morfológiailag gazdag nyelvek szépirodalma a legnagyobb kihívás az NMT számára, és akkor még nem beszéltünk a költészet tónusairól, alliterációkról, hasonlatokról metaforákról és nyelvi hibákról, amik szinte lehetetlenné teszik a felismerést. Ez nem csalódottság, csupán józan értékítélet. A legnagyobb hasznát persze a hírszerzés és a kémelhárítás aratná le, nem csoda hogy Kína élen jár a kísérletekben. Az NMT lehetővé teszi olyan nyelvek fordítását is, amelyeket korábban még soha nem fordítottak, a nyelvtanulást, és a szépirodalom élvezetét, ezáltal a műveltség forrása is lehet. Egyszerűbb lenne a dolgunk ha alkotnánk egy formális nyelvet, a meglévő bábeli zűrzavar helyett, de erről hallani sem akarnak az emberek. Pedig a formális nyelv egy kötött, minimális szimbólumkészletből és néhány szerkesztési szabályból valamint a hozzá rendelt pontos szemantikából (jelentés) álló rendszer sallangok nélkül. A szimbólumokból a szerkesztési szabályok figyelembe vételével szabályos kifejezések állíthatók össze röviden és gyorsan. A kifejezésekhez a szemantika alapján egyértelmű jelentés tartozik. A formális a matematikai logika által szigorúan definiált fogalom, azonban nemcsak a matematika világában találkozhatunk formális nyelvekkel, de a zenei kottaírás is jó példája a formális nyelv sikerének.

Nézzünk egy gyakori problémát a valós nyelvben;

Például az alszik szinonímáit.

alukál

aluszik

bóbiskol

csicsikál

csucsukál

csucsuzik

delel

durmol

hajcsizik

hál

horpaszt

húzza a lóbőrt

mormol

nyomja az ágyat

pihen

pocol

pőcsikél

szendereg

szundikál

szundít

szundizik

szunyál

szunnyad

szunyókál

tentézik

tentikél

a mesterséges vagy formális nyelvben csak egy szó van rá, könnyebb az azonosítás, kisebb a háttéri adatbázis! Elérkeztünk arra a pontra, hogy mi, emberek nem látjuk már át hogy saját algoritmusaink melyik pillanatban tudott értelemzést adni a szövegnek, mivel a gép az algoritmust tovább fejlesztette és kibővítette. Az ember nem képes átlátni az algoritmus futása közbeni állapotokat, így nem tud előre jól kiszámítható paraméterbeállításokkal előállni. Igaz, a gépet is és a programokat is mi hoztuk létre, de még ha lépésről lépésre végig követnénk is a működését, arra nem jönnénk rá, hogy melyik az a pont, ahol a rendszer „megértette” az emberi nyelv szavainak az értelmét.

Lásd még; https://aclanthology.org/2022.acl-long.546.pdf

https://arxiv.org/abs/2204.06812

https://www.researchgate.net/publication/359972952_Learning_to_Generalize_to_More_Continuous_Semantic_Augmentation_for_Neural_Machine_Translation

http://aitime-lundao.oss-cn-beijing.aliyuncs.com/AitimeReport/20220617/1655442091752

Szabó László István író, költő, az informatika tudományok tanára

2022. június 24., péntek

Neural Machine Translation szemantikája

Nincsenek megjegyzések:

Megjegyzés küldése