ESG & Policy Research

AI nella finanza: decifrare Fedspeak con l’elaborazione del linguaggio naturale

Dalla crisi finanziaria, la forward guidance è diventata una parte fondamentale degli strumenti di politica monetaria. Vincolate dai limiti inferiori ai tassi d’interesse, le banche centrali di tutto il mondo hanno fatto sempre più affidamento sulle comunicazioni pubbliche per guidare le aspettative di politica e influenzare i mercati finanziari. Di conseguenza, le dichiarazioni delle banche centrali, i verbali delle riunioni e persino i discorsi dei singoli membri sono diventati dati importanti da analizzare per gli osservatori della politica monetaria. Per esempio, gli operatori di mercato quest’anno hanno seguito da vicino ciò che i membri del FOMC dicono, alla ricerca di accenni a qualsiasi svolta hawkish, quale un possibile tapering futuro.

Tuttavia, il più delle volte decifrare le comunicazioni della banca centrale è più un’arte che una scienza, con interpretazioni soggette a pregiudizi umani. C’è un modo per estrarre sistematicamente le informazioni dalle comunicazioni delle banche centrali e quantificare oggettivamente qualsiasi segnale politico? A nostro avviso, questo compito è possibile con l’aiuto dell’elaborazione del linguaggio naturale (NLP) – una sottobranca dell’intelligenza artificiale (AI). Utilizzando l’esempio delle comunicazioni della Federal Reserve, illustriamo in questo blog post come siamo stati in grado di utilizzare NLP per tracciare le opinioni della Fed su diversi argomenti e costruire l’Algebris Dove-o-Meter – un indicatore quantitativo della dovishness/hawkishness della Fed nel tempo. Come mostriamo nella nostra analisi, la Fed è rimasta dovish finora di fronte alla ripresa post-pandemica, inclusa l’ultima riunione del FOMC di marzo.

Cos’è l’elaborazione del linguaggio naturale?

Yoav Goldberg, un importante ricercatore NLP presente nella lista IEEE AI Top 10 to Watch del 2018, definisce la NLP come un “termine collettivo che si riferisce all’elaborazione computazionale automatica delle lingue umane. Questo include sia gli algoritmi che prendono il testo [e/o il discorso] prodotto dall’uomo come input, sia gli algoritmi che producono testo [e/o discorso] dall’aspetto naturale come output.” (2017)

Questi algoritmi, un tempo confinati nelle nicchie del mondo accademico, sono ora incorporati in prodotti e servizi utilizzati dalle persone ogni giorno in tutto il mondo – alcuni noti esempi includono i motori di ricerca (Google, Baidu) e gli assistenti digitali personali (Alexa, Siri).

Ma cosa sono esattamente questi algoritmi? I benchmark dei test NLP, che sono usati per misurare le prestazioni di questi algoritmi, possono fornire una risposta. Il Natural Language Decathlon (DecaNLP), un noto test di riferimento, suddivide ciò che gli algoritmi NLP fanno in dieci compiti: “risposta alle domande, traduzione automatica, riassunto, inferenza del linguaggio naturale, analisi del sentimento, etichettatura dei ruoli semantici, estrazione di relazioni, dialogo orientato agli obiettivi, parsing semantico e risoluzione dei pronomi di uso comune”. Per esempio, il compito di rispondere alle domande comporta la scelta di una sequenza di parole da un dato paragrafo per rispondere a una data domanda. Lo Stanford Question Answering Dataset (SQuAD) viene utilizzato come dataset standard per questo compito, e include paragrafi della Wikipedia inglese, così come domande e risposte associate che possono essere trovate in quei paragrafi.

Volendo usare questa definizione di elaborazione del linguaggio naturale, ogni prodotto e/o servizio per l’utente finale, come un motore di ricerca o un assistente digitale personale, può essere visto come un agglomerato di vari algoritmi NLP che svolgono vari compiti e che, quando integrati in un sistema ben progettato ed esposti attraverso un’interfaccia utente ben progettata, simulano un’intelligenza molto reale (sebbene ancora artificiale).

Gli algoritmi “intelligenti” di oggi, tuttavia, sono un fenomeno recente e sono in netto contrasto con i vecchi algoritmi NLP. Dalla conferenza di Dartmouth del 1956 (spesso considerata la nascita ufficiale dell’IA) fino ai primi anni 2000 – circa 50 anni – la maggior parte degli algoritmi NLP sono stati progettati in modo deduttivo “top-down”. In una prima fase veniva teorizzato un sistema di regole linguistiche, e successivamente il linguaggio usato nella vita reale doveva essere una manifestazione di queste regole. Secondo la defunta pioniera della ricerca NLP Karen Jones, La svolta è avvenuta negli anni ’90 con l’ascesa degli approcci statistici che sono venuti a dominare la NPL moderna negli ultimi anni. A differenza del precedente paradigma “top-down”, molti algoritmi NLP all’avanguardia si basano sull’induzione “bottom-up”, cioè sull’inferenza di modelli linguistici (dalla sintassi alla semantica) basati su corpora linguistici giganteschi come l’intera Wikipedia inglese o il web pubblico (ad esempio, il dataset Common Crawl usato per addestrare GPT-3 costituiva quasi mille miliardi di parole).

In effetti, tale approccio è concettualmente elegante. Invece di cercare di adattare forzatamente i dati linguistici della vita reale in un quadro linguistico ipotizzato dall’uomo, cosa impossibile da fare in modo esaustivo dato il volume, la velocità e la varietà dei corpora linguistici odierni (dato che il linguaggio è così malleabile), perché non lasciare che siano i dati a guidare il quadro linguistico? Inoltre, oltre ad essere elegante, la ragione è evidente dai risultati: gli approcci NLP statistici hanno assolutamente dominato la maggior parte dei test, compreso il già citato DecaNLP, così come altri benchmark multi-task ben consolidati come SuperGlue.

Visti questi recenti ed entusiasmanti progressi NLP, abbiamo applicato alcuni degli ultimi algoritmi a piccoli sottoinsiemi di corpora linguistici come articoli di notizie, testi di social media, trascrizioni di discorsi e pubblicazioni ufficiali del governo, per esempio le comunicazioni Fed in questa analisi di ricerca.

Fedspeak: cosa potremmo imparare usando l’NLP?

L’obiettivo della nostra analisi è quello di quantificare le policy statement della Fed all’interno qualsiasi sua comunicazione. Abbiamo suddiviso questo obiettivo in due compiti principali: estrarre passaggi di testo rilevanti con implicazioni di policy e quantificare il sentiment espresso in quei passaggi.

Abbiamo iniziato costruendo un dataset di testo che consiste nelle dichiarazioni ufficiali della Fed dal 1994 al 2021. Per adempiere ai due compiti di cui sopra, abbiamo progettato un sistema in grado di recuperare passaggi di testo rilevanti dalle dichiarazioni date alcune query/frasi di input. In base al fatto che le frasi di input siano hawkish o dovish, siamo stati in grado di dare un punteggio ai passaggi recuperati per quantificare l’inclinazione della Fed verso una delle due direzioni. Come esempio concreto, una frase come “economia forte” dovrebbe recuperare il passaggio di testo “l’attività economica ha continuato a rafforzarsi” dalla dichiarazione del 27 gennaio 2010, e il passaggio sarebbe etichettato come hawkish. Per capire meglio il punto di vista della Fed su diverse questioni, abbiamo raggruppato le nostre query di input sotto quattro argomenti: crescita economica, inflazione, mercato del lavoro e politica monetaria. Per una data policy statement, una volta recuperati tutti i passaggi rilevanti, abbiamo aggregato i punteggi dei singoli passaggi per ogni argomento, prendendo lo scarto tra hawkish e dovish, e poi abbiamo calcolato un punteggio finale facendo la media dei punteggi degli argomenti. Questo punteggio finale fornisce una misura quantitativa del grado complessivo di hawkish/dovish della dichiarazione politica.

[infogram id=”675267ef-40a7-40b5-ae07-2f62bd5cf17f” prefix=”D2x” format=”interactive” title=”Fed Table”]

Come si può vedere qui sotto, il nostro indicatore finale segue abbastanza bene i cicli economici negli Stati Uniti e mostra i drastici spostamenti dovish della Fed all’inizio delle ultime tre recessioni (2001, 2008. 2020).

Per capire meglio se la Fed è troppo hawkish o dovish rispetto ai fondamentali economici, abbiamo anche eseguito un semplice modello di regressione sul nostro indicatore utilizzando una lista di variabili macro e abbiamo ottenuto un fit soddisfacente (R2 adjsuted di 0,52). Come suggerisce il nostro modello, con gli attuali fondamentali economici la Fed dovrebbe già essere più hawkish in base ai rapporti storici. Tuttavia, la Fed è rimasta dovish nell’ultima riunione del FOMC di marzo, ritracciando da alcuni piccoli spostamenti hawkish nelle comunicazioni tra una riunione e l’altra del presidente Powell e del membro del FOMC Brainard. Questo evidenzia l’insolito dilemma politico affrontato dalla Fed, dato il forte rimbalzo economico dopo una recessione indotta da una pandemia, grazie a livelli senza precedenti di stimolo monetario e fiscale.

[infogram id=”f5aec1a3-e574-4d7c-86cd-39fcf7bed0aa” prefix=”FFz” format=”interactive” title=”Fed”]

Come funzionano esattamente i nostri modelli NLP?

In dettagli più tecnici, ci siamo affidati a un ensemble di tre modelli NLP per il recupero e il punteggio dei passaggi – con ogni modello dato un soprannome basato sul suo ruolo:

1.  Scout: Questo modello è bravo a recuperare i passaggi che sono topicamente rilevanti per la frase di input (cioè, è un buon “esploratore”, “scout”). Tuttavia, non funziona così bene per determinare la polarità dei passaggi recuperati (ad esempio, positivo/negativo, hawkish/dovish), e quindi è insufficiente da solo. Il modello di base utilizzato è un modello RoBERTa (Liu et al, 2019) che era stato distillato (Sanh et al, 2020) e modificato per “derivare embeddings di frasi semanticamente significative che possono essere confrontate usando la cosino-similarità” a velocità elevate (Reimers e Gurevych, 2019). Il modello di base è stato già usato sul dataset MSMARCO Passage Ranking che consiste in 500k query reali dalla ricerca Bing. Lo abbiamo ulteriormente messo a punto usando dati etichettati dal corpus di policy statement.

2. Sniper: Questo modello è estremamente preciso (cioè, è un buon “cecchino”, “sniper”), che a volte può essere un’arma a doppio taglio perché può mancare alcuni passaggi che sono comunque rilevanti. Tuttavia, si accoppia bene con il modello Scout e aiuta a rivalutare tutti i passaggi recuperati prima dal modello Scout. Il modello di base utilizzato è un modello ELECTRA (Clark et al, 2020) che è stato anche usato sul dataset MSMARCO Passage Ranking. Come il modello Scout, abbiamo ulteriormente messo a punto questo modello di base utilizzando dati etichettati dal corpus delle dichiarazioni di politica.

3. Sweeper: Questo è un modello di sentiment analysis che è stato usato su testi finanziari. Può determinare se un passaggio è positivo/neutro/negativo, e il suo ruolo è quello di “doppia conferma” dei segnali generati dagli altri 2 modelli dove applicabile, cioè, aiuta a “spazzare (“sweep”) le questioni in sospeso”. Il modello di base utilizzato è FinBERT (Araci, 2019). Poiché le frasi di input che abbiamo usato non erano totalmente positive o negative (ad esempio, “abbassare il tasso di interesse” non è definitivamente positivo o negativo), abbiamo applicato selettivamente questo modello ad alcune frasi che erano più chiare nella polarità (ad esempio, “economia forte”). A differenza degli altri due, questo modello non è stato adattato.

Come mostrato nella pipeline e nell’esempio qui sotto, abbiamo passato ogni policy statement attraverso tutti e tre i modelli per recuperare i passaggi rilevanti e abbiamo calcolato il punteggio per ogni passaggio come una somma ponderata dei punteggi dei tre modelli. Abbiamo dato un peso del 70% al punteggio del modello Sniper a causa dell’alta precisione del modello, mentre il restante 30% è stato condiviso equamente tra i restanti modelli.

[infogram id=”3959ef55-309f-4f18-9bef-fe897b03e22d” prefix=”ful” format=”interactive” title=”Fed NLP Model”]

Guardando avanti

La nostra struttura e l’applicazione delle tecniche NLP ci forniscono uno strumento alternativo per monitorare la politica monetaria negli Stati Uniti. In futuro, potremmo facilmente espandere la nostra analisi per includere altre grandi banche centrali come la Banca Centrale Europea e la Banca d’Inghilterra per ulteriori approfondimenti. Soprattutto, questo esempio specifico conferma ulteriormente la rilevanza delle tecniche NLP per la ricerca finanziaria, come abbiamo dimostrato in altri casi d’uso passati, come il sentiment tracking per le elezioni americane dello scorso anno.  Con le continue scoperte in NLP e nel campo generale dell’IA, cerchiamo di continuare ad esplorare le applicazioni adatte di questi strumenti per affrontare i problemi della finanza.