Hé! A transzformátorok szállítója vagyok, és ma arról fogok beszélni, hogy az önmagában - figyelem -mechanizmus működik egy transzformátorban. Lehet, hogy kissé technikai hangzik, de oly módon bontom le, amely könnyen érthető.
Kezdjük az alapokkal. A transzformátorok egy olyan neurális hálózati architektúra, amely forradalmasította a természetes nyelvfeldolgozás (NLP) és más területeket. Az önálló figyelmet mechanizmus az egyik kulcsfontosságú elem, amely a transzformátorokat olyan erőteljessé teszi.
Mi az az önmagában - a figyelem?
Az önmagának - a figyelem a modell feldolgozásakor a bemeneti sorozat különböző részeinek fontosságának mérlegelésére szolgál. Egyszerűen fogalmazva, elősegíti a modellt a bemenet releváns részeire összpontosítva. Képzelje el, hogy egy hosszú cikket olvas. Nem olvassa el az egyes szót, ugyanolyan szintű figyelemmel. Lehet, hogy nagyobb figyelmet fordít a legfontosabb mondatokra, címsorokra és a releváns részletekre. Pontosan ez az, amit az önmagának - a figyelem egy transzformátor modelljére tesz.
Hogyan működik lépésről lépésre?
1. Lekérdezés, kulcs és értékvektorok
Az önmagának első lépése az, hogy három típusú vektorot hozzon létre a bemeneti sorrendben: lekérdezés (Q), kulcs (K) és érték (V) vektorok. Ezeket a vektorokat úgy hozták létre, hogy a bemeneti beágyazást három különböző súlymátrixmal szorozják.
Tegyük fel, hogy van egy bemeneti szavak sorrendje, és minden szó vektorként van ábrázolva. Szorozzuk meg ezeket a bemeneti vektorokat a súlymátrixokkal (W_Q), (W_K) és (W_V) a lekérdezés, a kulcs és az értékvektorok beszerzéséhez.
[Q = xw_q]
[K = XW_K]
[V = XW_V]
Itt (x) a bemeneti beágyazások mátrixa.
2. A figyelem pontszámának kiszámítása
Ezután kiszámoljuk a figyelem pontszámait. Ezt úgy végezzük, hogy a lekérdezési vektorok ponttermékét a kulcsvektorokkal vesszük. A DOT termék méri a lekérdezés és a kulcsok közötti hasonlóságot.
A szekvencia minden lekérdezési vektorához (q_i) kiszámoljuk a figyelem pontszámát (A_ {i, j}) a szekvencia összes kulcsvektorával (K_J).
[a_ {i, j} = q_i \ cdot k_j]
Ezek a pontszámok megmondják nekünk, hogy a szekvencia (i) - th elemének mennyire kell figyelnie a (j) - th elemre.
3. Méretezés és softmax
A figyelem pontszámát ezután méretezzük úgy, hogy elosztjuk őket a kulcsvektorok méretének négyzetgyökével ((\ sqrt {d_k})). Ez a méretezés segít megakadályozni, hogy a DOT -termékek túlságosan nagyá váljanak, ami a gradiensek instabilá válhat az edzés során.
[a_ {i, j}^{scaled} = \ frac {a_ {i, j}} {\ sqrt {d_k}}]
A méretezés után a SoftMax funkciót alkalmazzuk a skálázott pontszámokra. A SoftMax függvény a pontszámokat valószínűséggé konvertálja, úgy, hogy összegezzék az 1 -et.
[\ alfa_ {i, j} = \ frac {\ exp (a_ {i, j}^{scaled})} {\ sum_ {k = 1}^{n} \ exp (a_ {i, k}^{scaled})}]]]
Itt (\ alfa_ {i, j}) a figyelem súlya, amely a (j) - th elem fontosságát képviseli az (i) - th elemnél.


4. Súlyozott értékek összege
Végül kiszámoljuk az önmagának kimenetét az értékvektorok súlyozott összegének figyelembevételével. Szorozzuk meg az egyes értékvektorokat (V_J) a megfelelő figyelemsúlyával (\ alfa_ {i, j}), és összegezzük őket az összes (j) -re.
[o_i = \ sum_ {j = 1}^{n} \ alfa_ {i, j} v_j]
A kimeneti vektorok (O_I) az önmagának kimenete a bemeneti sorrend minden elemére.
Miért fontos az önmagának - a figyelemnek?
Az önmagának - figyelem -mechanizmusnak számos előnye van. Először is lehetővé teszi a modell számára, hogy a bemeneti sorrendben hosszú tartományú függőségeket rögzítsen. A hagyományos neurális hálózati architektúrákban, például a visszatérő ideghálózatokban (RNN), nehéz megragadni a szekvenciában lévő elemek közötti függőségeket. Az önmagának - a figyelem könnyen kezelheti az ilyen hosszú tartományú függőségeket, mivel közvetlenül kiszámíthatja a sorozat bármely eleme közötti kapcsolatot.
Másodszor, az önmagának - a figyelem párhuzamos. Az RNN -kkel ellentétben, amelyek a bemeneti szekvenciát egymás után feldolgozzák, az önmagának a figyelem egyidejűleg feldolgozhatja a szekvencia összes elemet. Ez sokkal gyorsabbá teszi az edzést és a következtetést, különösen a hosszú szekvenciák esetében.
A transzformátorok és az önmagának alkalmazásai
Az önmagával - figyelem -mechanizmusokkal rendelkező transzformátorokat széles körben alkalmazták. Az NLP -ben azokat olyan feladatokhoz használják, mint a gépi fordítás, a szöveges generáció, a kérdések - válaszadó rendszerek és az érzelmi elemzés. Például az olyan modellek, mint a Bert és a GPT, a transzformátor architektúrán alapulnak.
A számítógépes látásban az önálló figyelmet is alkalmazták. Használható a képek elemzésére, objektumok észlelésére és a képek feliratok előállítására.
Transzformátor termékeink
Transzformátor beszállítójaként különféle magas színvonalú transzformátorokat kínálunk. Például megvan a167 KVA telefonos pólus -transzformátor, amely alkalmas kültéri alkalmazásokhoz, és megbízható tápegységet biztosíthat. A miénkAz olaj elmerült alacsony veszteségű transzformátorÚgy tervezték, hogy csökkentse az energiaveszteséget, és hosszú élettartamú. És ha száraz transzformátorra van szüksége, a mi400 kva száraz transzformátorKiváló választás, kiváló teljesítmény- és biztonsági funkciókkal.
Ha érdekli termékeink, vagy bármilyen kérdése van a transzformátorokkal kapcsolatban, bátran forduljon hozzánk vásárlási tárgyalásokon. Azért vagyunk itt, hogy a legjobb megoldásokat biztosítsuk Önnek az Ön energiaszigényeinek.
Referenciák
- Vaswani, A., Shazer, N., Parmar, N., USzkoreit, J., Jones, L., Gomez, AN, ... és Polosukhin, I. (2017). A figyelem minden, amire szüksége van. A neurális információfeldolgozó rendszerek fejlődése.
- Devlin, J., Chang, MW, Lee, K. és Toutanova, K. (2018). Bert: A mély kétirányú transzformátorok előzetes képzése a nyelv megértése érdekében. Arxiv Preprint Arxiv: 1810.04805.
- Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., és Sutskever, I. (2019). A nyelvi modellek felügyelet nélküli multitask tanulók. Openai Blog, 1 (8), 9.
