În acest articol, Generative pre-trained transformer va fi abordat din diferite perspective, cu scopul de a oferi o viziune cuprinzătoare și completă asupra acestui subiect/titlu/persoană. De la impactul său asupra societății și până la relevanța sa astăzi, vor fi explorate diverse aspecte care vor permite cititorului să aprofundeze studiul său în detaliu. Vor fi prezentate date statistice, analize, opinii ale experților și mărturii ale persoanelor implicate în Generative pre-trained transformer, cu scopul de a oferi o viziune amplă și îmbogățitoare care să contribuie la o înțelegere profundă a acestui subiect/titlu/persoană. Pe parcursul acestui articol, vom reflecta asupra importanței sale în diverse contexte și vom propune posibile soluții, provocări și oportunități pe care Generative pre-trained transformer le prezintă în prezent.
Generative pre-trained Transformer (GPT) este o familie de modele de limbaj instruite în general pe un corp mare de date text pentru a genera text în mod similar oamenilor. Sunt construite folosind mai multe blocuri ale arhitecturii transformatorului. Ele pot fi reglate fin pentru diverse sarcini de procesare a limbajului natural, cum ar fi generarea de text, traducere automată și clasificarea textelor. „Preinstruirea” din numele său se referă la procesul de formare inițială pe un corpus textual mare în care modelul de limbaj învață să prezică următorul cuvânt dintr-un pasaj, ceea ce oferă o bază solidă pentru ca modelul să funcționeze bine în sarcinile ulterioare cu cantități limitate a datelor specifice sarcinii.
Pe 11 iunie 2018, OpenAI a lansat o lucrare intitulată „Îmbunătățirea înțelegerii limbajului prin preformare generativă”, în care a introdus transformatorul generativ preantrenat (GPT).[6] În acest moment, modelele NLP neuronale cu cele mai bune performanțe au folosit în principal învățarea supravegheată din cantități mari de date etichetate manual. Această dependență de învățarea supravegheată a limitat utilizarea acestora pe seturi de date care nu erau bine adnotate, pe lângă faptul că a făcut ca antrenarea modelelor extrem de mari să fie extrem de costisitoare și consumatoare de timp;[6][7] multe limbi (cum ar fi swahili sau creolul haitian ) sunt dificil de tradus și interpretat folosind astfel de modele din cauza lipsei de text disponibil pentru construirea corpusului.[7] În schimb, abordarea „semi-supravegheată” a GPT a implicat două etape: o etapă generativă nesupravegheată de „pre-training” în care un obiectiv de modelare a limbajului a fost folosit pentru a seta parametrii inițiali și o etapă de „reglare fină” discriminativă supravegheată în care acești parametri. au fost adaptate unei sarcini țintă.[6]
Arhitectură | Număr de parametri | Date de antrenament | |
---|---|---|---|
GPT-1 | Codificator transformator cu 12 nivele, 12 capete (fără decodor), urmat de liniar-softmax. | 0,12 miliarde | BookCorpus:[8] 4,5 GB de text, din 7000 de cărți nepublicate de diferite genuri. |
GPT-2 | GPT-1, dar cu normalizare modificată | 1,5 miliarde | WebText: 40 GB de text, 8 milioane de documente, din 45 de milioane de pagini web votate pozitiv pe Reddit. |
GPT-3 | GPT-2, dar cu modificări pentru a permite o scalare mai mare. | 175 miliarde | 570 GB text simplu, 0,4 trilioane de jetoane. În principal, CommonCrawl, WebText, Wikipedia în engleză și corpuri de două cărți (Books1 și Books2). |
Like those tools, ChatGPT — which stands for "generative pre-trained transformer" — landed with a splash.