Hogyan működik a transzformátor önmagában - figyelem -mechanizmusa?

Hé! A transzformátorok szállítója vagyok, és ma arról fogok beszélni, hogy az önmagában - figyelem -mechanizmus működik egy transzformátorban. Lehet, hogy kissé technikai hangzik, de oly módon bontom le, amely könnyen érthető.

Kezdjük az alapokkal. A transzformátorok egy olyan neurális hálózati architektúra, amely forradalmasította a természetes nyelvfeldolgozás (NLP) és más területeket. Az önálló figyelmet mechanizmus az egyik kulcsfontosságú elem, amely a transzformátorokat olyan erőteljessé teszi.

Mi az az önmagában - a figyelem?

Az önmagának - a figyelem a modell feldolgozásakor a bemeneti sorozat különböző részeinek fontosságának mérlegelésére szolgál. Egyszerűen fogalmazva, elősegíti a modellt a bemenet releváns részeire összpontosítva. Képzelje el, hogy egy hosszú cikket olvas. Nem olvassa el az egyes szót, ugyanolyan szintű figyelemmel. Lehet, hogy nagyobb figyelmet fordít a legfontosabb mondatokra, címsorokra és a releváns részletekre. Pontosan ez az, amit az önmagának - a figyelem egy transzformátor modelljére tesz.

Hogyan működik lépésről lépésre?

1. Lekérdezés, kulcs és értékvektorok

Az önmagának első lépése az, hogy három típusú vektorot hozzon létre a bemeneti sorrendben: lekérdezés (Q), kulcs (K) és érték (V) vektorok. Ezeket a vektorokat úgy hozták létre, hogy a bemeneti beágyazást három különböző súlymátrixmal szorozják.

Tegyük fel, hogy van egy bemeneti szavak sorrendje, és minden szó vektorként van ábrázolva. Szorozzuk meg ezeket a bemeneti vektorokat a súlymátrixokkal (W_Q), (W_K) és (W_V) a lekérdezés, a kulcs és az értékvektorok beszerzéséhez.

[Q = xw_q]
[K = XW_K]
[V = XW_V]

Itt (x) a bemeneti beágyazások mátrixa.

2. A figyelem pontszámának kiszámítása

Ezután kiszámoljuk a figyelem pontszámait. Ezt úgy végezzük, hogy a lekérdezési vektorok ponttermékét a kulcsvektorokkal vesszük. A DOT termék méri a lekérdezés és a kulcsok közötti hasonlóságot.

A szekvencia minden lekérdezési vektorához (q_i) kiszámoljuk a figyelem pontszámát (A_ {i, j}) a szekvencia összes kulcsvektorával (K_J).

[a_ {i, j} = q_i \ cdot k_j]

Ezek a pontszámok megmondják nekünk, hogy a szekvencia (i) - th elemének mennyire kell figyelnie a (j) - th elemre.

3. Méretezés és softmax

A figyelem pontszámát ezután méretezzük úgy, hogy elosztjuk őket a kulcsvektorok méretének négyzetgyökével ((\ sqrt {d_k})). Ez a méretezés segít megakadályozni, hogy a DOT -termékek túlságosan nagyá váljanak, ami a gradiensek instabilá válhat az edzés során.

[a_ {i, j}^{scaled} = \ frac {a_ {i, j}} {\ sqrt {d_k}}]

A méretezés után a SoftMax funkciót alkalmazzuk a skálázott pontszámokra. A SoftMax függvény a pontszámokat valószínűséggé konvertálja, úgy, hogy összegezzék az 1 -et.

[\ alfa_ {i, j} = \ frac {\ exp (a_ {i, j}^{scaled})} {\ sum_ {k = 1}^{n} \ exp (a_ {i, k}^{scaled})}]]]

Itt (\ alfa_ {i, j}) a figyelem súlya, amely a (j) - th elem fontosságát képviseli az (i) - th elemnél.

pole-mounted-transformer (2) 400kva dry transformer

4. Súlyozott értékek összege

Végül kiszámoljuk az önmagának kimenetét az értékvektorok súlyozott összegének figyelembevételével. Szorozzuk meg az egyes értékvektorokat (V_J) a megfelelő figyelemsúlyával (\ alfa_ {i, j}), és összegezzük őket az összes (j) -re.

[o_i = \ sum_ {j = 1}^{n} \ alfa_ {i, j} v_j]

A kimeneti vektorok (O_I) az önmagának kimenete a bemeneti sorrend minden elemére.

Miért fontos az önmagának - a figyelemnek?

Az önmagának - figyelem -mechanizmusnak számos előnye van. Először is lehetővé teszi a modell számára, hogy a bemeneti sorrendben hosszú tartományú függőségeket rögzítsen. A hagyományos neurális hálózati architektúrákban, például a visszatérő ideghálózatokban (RNN), nehéz megragadni a szekvenciában lévő elemek közötti függőségeket. Az önmagának - a figyelem könnyen kezelheti az ilyen hosszú tartományú függőségeket, mivel közvetlenül kiszámíthatja a sorozat bármely eleme közötti kapcsolatot.

Másodszor, az önmagának - a figyelem párhuzamos. Az RNN -kkel ellentétben, amelyek a bemeneti szekvenciát egymás után feldolgozzák, az önmagának a figyelem egyidejűleg feldolgozhatja a szekvencia összes elemet. Ez sokkal gyorsabbá teszi az edzést és a következtetést, különösen a hosszú szekvenciák esetében.

A transzformátorok és az önmagának alkalmazásai

Az önmagával - figyelem -mechanizmusokkal rendelkező transzformátorokat széles körben alkalmazták. Az NLP -ben azokat olyan feladatokhoz használják, mint a gépi fordítás, a szöveges generáció, a kérdések - válaszadó rendszerek és az érzelmi elemzés. Például az olyan modellek, mint a Bert és a GPT, a transzformátor architektúrán alapulnak.

A számítógépes látásban az önálló figyelmet is alkalmazták. Használható a képek elemzésére, objektumok észlelésére és a képek feliratok előállítására.

Transzformátor termékeink

Transzformátor beszállítójaként különféle magas színvonalú transzformátorokat kínálunk. Például megvan a167 KVA telefonos pólus -transzformátor, amely alkalmas kültéri alkalmazásokhoz, és megbízható tápegységet biztosíthat. A miénkAz olaj elmerült alacsony veszteségű transzformátorÚgy tervezték, hogy csökkentse az energiaveszteséget, és hosszú élettartamú. És ha száraz transzformátorra van szüksége, a mi400 kva száraz transzformátorKiváló választás, kiváló teljesítmény- és biztonsági funkciókkal.

Ha érdekli termékeink, vagy bármilyen kérdése van a transzformátorokkal kapcsolatban, bátran forduljon hozzánk vásárlási tárgyalásokon. Azért vagyunk itt, hogy a legjobb megoldásokat biztosítsuk Önnek az Ön energiaszigényeinek.

Referenciák

Vaswani, A., Shazer, N., Parmar, N., USzkoreit, J., Jones, L., Gomez, AN, ... és Polosukhin, I. (2017). A figyelem minden, amire szüksége van. A neurális információfeldolgozó rendszerek fejlődése.
Devlin, J., Chang, MW, Lee, K. és Toutanova, K. (2018). Bert: A mély kétirányú transzformátorok előzetes képzése a nyelv megértése érdekében. Arxiv Preprint Arxiv: 1810.04805.
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., és Sutskever, I. (2019). A nyelvi modellek felügyelet nélküli multitask tanulók. Openai Blog, 1 (8), 9.