Un buon modello trend spotting/following

  • Ecco la 60° Edizione del settimanale "Le opportunità di Borsa" dedicato ai consulenti finanziari ed esperti di borsa.

    Questa settimana abbiamo assistito a nuovi record assoluti in Europa e a Wall Street. Il tutto, dopo una ottava che ha visto il susseguirsi di riunioni di banche centrali. Lunedì la Bank of Japan (BoJ) ha alzato i tassi per la prima volta dal 2007, mettendo fine all’era del costo del denaro negativo e al controllo della curva dei rendimenti. Mercoledì la Federal Reserve (Fed) ha confermato i tassi nel range 5,25%-5,50%, mentre i “dots”, le proiezioni dei funzionari sul costo del denaro, indicano sempre tre tagli nel corso del 2024. Il Fomc ha anche discusso in merito ad un possibile rallentamento del ritmo di riduzione del portafoglio titoli. Ieri la Bank of England (BoE) ha lasciato i tassi di interesse invariati al 5,25%. Per continuare a leggere visita il link

TL;DR

Parere - se vuoi giocare con Deep Learning sui mercati, vedo proprio poco senso nel farlo cosi'. Se puo' aggiungere valore, lo fa quando lavori su volumi di dati piu' grossi - che volendo in finanza non mancano.

E leggendo velocemente, vedo chili di hindsight bias e overfitting inseriti prima ancora di cominciare a fare training :)

Ciao!

Mi riempi di orgoglio! :flower:
 
Gli anni passano ma PGiulia resta tremenda.
 
Ray Dalio sta massacrando il nostro CEO di stato, quello tanto intortato con il potere politico da vedersi regalate 2 banche ad 1 Euro.

Bridgewater punta contro Intesa.

Messina: “Perderete i vostri soldi”


16 ottobre 2017, di Alessandra Caparello
ROMA (WSI) – È scontro a distanza tra l’amministratore delegato del gruppo bancario più importante e più capitalizzato d’Italia, Intesa SanPaolo, e il manager dell’hedge fund maggiore al mondo, Ray Dalio di Bridgewater Associates che ha puntato 713 milioni di dollari contro i titoli azionari finanziari italiani e altri 600 milioni circa contro il settore energetico del nostro paese.
La scommessa più grande che ha lanciato Dalio riguarda proprio Intesa Sanpaolo, ma Carlo Messina risponde che lo stesso Dalio perderà la sua scommessa e quindi tanti soldi. Dal due ottobre i prezzi di Intesa Sanpaolo sono in calo costante a Piazza Affari, tuttavia. Dopo che non sono riusciti a violare i 3 euro, dal due ottobre i prezzi di Intesa Sanpaolo sono tuttavia in calo costante, e al momento quotano 2,86 euro.
“A mio avviso perderanno significative opportunità di guadagnare con queste buone azioni italiane. E oggi dopo questa notizia il corso azionario di Intesa Sanpaolo è l’unico positivo e tutti gli altri negativi, quindi spero che ogni giorno possano dare questo consiglio agli investitori”, ha commentato venerdì scorso.
Così il Ceo di Intesa parlando a margine di una riunione al Fondo monetario internazionale. Messina ha affermato che Intesa si trovava in una posizione di forza e ha sottolineato che 920 miliardi di euro della banca di depositi al dettaglio beneficerebbero di qualsiasi futura era di rialzo dei tassi di interesse. Per Messina il settore bancario italiano è una buona opportunità.
Secondo i dati del Fondo monetario internazionale, alla fine di giugno dello scorso anno, i livelli di NPL dell’Italia si attestavano sui 356 miliardi di euro, pari al 18% del totale dei prestiti concessi alle banche italiane, pari al 20% del Pil e ad un terzo del totale dell’area euro. Messina ha sostenuto che l’accelerazione sulla riduzione degli Npl è positiva sì ma oggi troppi attori europei stanno esaminando la situazione da diverse prospettive.
“Sono davvero deluso dal fatto che la Bce dica qualcosa, il Parlamento un’altra e così l’Eurogruppo, l’Fmi, ecc… troppi giocatori che hanno a che fare con qualcosa di tropo delicato”.
 
TL;DR

Parere - se vuoi giocare con Deep Learning sui mercati, vedo proprio poco senso nel farlo cosi'. Se puo' aggiungere valore, lo fa quando lavori su volumi di dati piu' grossi - che volendo in finanza non mancano.

E leggendo velocemente, vedo chili di hindsight bias e overfitting inseriti prima ancora di cominciare a fare training :)

Ciao!

Forse allora dovresti leggere un po' più lentamente... Tanto per cominciare non ho mai parlato di deep learning. Non uso reti profonde in quest'ambito e chiunque sa che quel tipo di topologia è deputata ad altri impieghi. Come ho chiarito ho usato reti shallow con un singolo strato interno e anche piuttosto piccolo. Già fino a qui "marchi male". E poi "volumi di dati più grossi"? Quanto più grossi? Gli ultimi 15 anni di tutta l'economia occidentale con un db con milioni di record non è abbastanza grosso? Rinnovo l'invito alla lentezza.

Per il resto, backtest molto solidi non mostrano né overfitting ne "hindsight bias" però se tu li vedi mi fido...spè indovino il resto, per misteriose ragioni non spiegherai dove li hai visti esattamente dico bene? Così il tutto resterà attribuito a una tua tanto misteriosa quanto profondissima competenza di cui qui non siamo degni. Del resto sembri aver imparato dalla migliore qui in ambito di millantate competenze.

Guarda nulla di personale, ma qui è un copione già visto. Se spieghi esattamente di cosa parli sarò lieto di aver sbagliato altrimenti un caro saluto.
 
:eek: :'( :'( :'( (lacrime di felicità, sono commossa!!! :bow: :D)

:D


Forse allora dovresti leggere un po' più lentamente... Tanto per cominciare non ho mai parlato di deep learning. Non uso reti profonde in quest'ambito e chiunque sa che quel tipo di topologia è deputata ad altri impieghi. Come ho chiarito ho usato reti shallow con un singolo strato interno e anche piuttosto piccolo. Già fino a qui "marchi male". E poi "volumi di dati più grossi"? Quanto più grossi? Gli ultimi 15 anni di tutta l'economia occidentale con un db con milioni di record non è abbastanza grosso? Rinnovo l'invito alla lentezza.

Per il resto, backtest molto solidi non mostrano né overfitting ne "hindsight bias" però se tu li vedi mi fido...spè indovino il resto, per misteriose ragioni non spiegherai dove li hai visti esattamente dico bene? Così il tutto resterà attribuito a una tua tanto misteriosa quanto profondissima competenza di cui qui non siamo degni. Del resto sembri aver imparato dalla migliore qui in ambito di millantate competenze.

Guarda nulla di personale, ma qui è un copione già visto. Se spieghi esattamente di cosa parli sarò lieto di aver sbagliato altrimenti un caro saluto.


Zero intenzione di fare polemica, se ho scritto e' solo per darti un contributo. :)
Mi dispiace, ma onestamente trovo l'approccio ridicolo - sia se lo scopo e' fare soldi, sia se e' giocare con tecniche di Machine Learning. Concordo sull'invito alla lentezza in generale, ma nel particolare credo bisogna anche essere veloci a imparare a non perdere tempo - che era proprio il contributo che volevo darti.

Ti ho gia' quotato la parte dove si vede che la quantita' di dati che usi, vedi tu se vuoi.

Riguardo l'algoritmo - leggo solo che usi "ensembles di reti neurali", di nuovo te la vedi tu che vuol dire :)
Io per quanto so e applicato, non ho visto questo particolare valore aggiunto di "shallow" NN rispetto ad altri algoritmi di Machine Learning. I tanti casi in cui NN sono stati applicati davvero con grosso successo, credo siano quasi sempre casi di Deep Learning.

Ti aggiungo parte di questi chili che vedo inseriti prima di parlare di qualsiasi modello, e ti lascio continuare :)

Io per rispondere ho preso gli 80 titoli con gli spread più bassi di sp500 (la commessa è per azioni USA) e su questi titoli ho creato un ampio database con dentro tutti i trend avvenuti dal 2007 ad oggi. Per delimitare questi trend ho usato il supertrend appunto.
 
Ultima modifica:
Guarda io non so bene quale sia la tua preparazione in quest'ambito (machine learning/data science ecc) e mi scuso per il tono che può trasparire però tu abbi pazienza... E` proprio difficile credere che tu sappia di cosa parli nel momento in cui muovi una critica relativa all'overfitting e poi suggerisci di passare dalle reti superficiali a quelle profonde, te ne rendi conto?
Verrebbe da pensare che tu non sappia bene cosa sia né l'overfitting né una rete profonda.

E` come se vai da uno che progetta motori e gli dici "no guarda questo motore lo stiamo facendo troppo potente, suggerisco di aumentare la cilindrata." Capisci che quello ti guarda male...

ps: non ho ancora capito dov'è l'overfitting in questo caso.

pps: Aggiungo una nota generale. "Overfitting" è una parolina magica che gira sui forum e per la quale di solito il rapporto (cognizione di causa)/(utilizzo del termine) è drammaticamente basso.
Personalmente se vedo overfitting nel lavoro di un collega oltre a buttare lì la parolina magica mi premuro di:
1. capire e spiegare nel modo più esatto possibile quale elemento del modello stia producendo overfitting secondo me.
2. E soprattutto cerco di capire come sia possibile che la cosa non emerga dai test.

Se dai test non emerge o sto sbagliando io a vedere l'overfitting o è sbagliato il test, perché non so se questa cosa è chiara ma l'overfitting non è una roba misteriosa come spesso si fa credere qui. Se stai overfittando la performance crolla sui dati nuovi. Fine. Se non lo fa e i test sono fatti bene ci sono speranze più che ragionevoli che il modello sia solido.
Difficile credere che tu voglia contribuire senza questi due elementi.
 
pps: Aggiungo una nota generale. "Overfitting" è una parolina magica che gira sui forum e per la quale di solito il rapporto (cognizione di causa)/(utilizzo del termine) è drammaticamente basso.


Saro' duro e crudo

Io sono un bayesiano. Se ho delle evidenze di un fenomeno che trascende a priori l'analisi dei dati, provo ad investigare sull'assetto informativo. Sono in questo caso a favore della teoria non convenzionale, non ortodossa, dei "piccoli campioni".
Mi puo' bastare delle volte, anche la raccolta di 1 fino a 5-10 campioni di dati per non rigettare l'evidenza del fenomeno, alla faccia dei test di significativita' statistica. Delle rare volte mi basta estrarre 1 (uno) campione solo di dati: esempio, l'anchorman toscano di Binck Tv che telefona al C.E.O. della banca e poi suggerisce al forum un insight operativo dicendo di aver parlato al solo investor relator, o piani bassi equipollenti.

Se invece cerco di individuare fenomeni dai dati, non so se 80 campioni mi bastino.
 
Saro' duro e crudo

Io sono un bayesiano. Se ho delle evidenze di un fenomeno che trascende a priori l'analisi dei dati, provo ad investigare sull'assetto informativo. Sono in questo caso a favore della teoria non convenzionale, non ortodossa, dei "piccoli campioni".
Mi puo' bastare delle volte, anche la raccolta di 1 fino a 5-10 campioni di dati per non rigettare l'evidenza del fenomeno, alla faccia dei test di significativita' statistica. Delle rare volte mi basta estrarre 1 (uno) campione solo di dati: esempio, l'anchorman toscano di Binck Tv che telefona al C.E.O. della banca e poi suggerisce al forum un insight operativo dicendo di aver parlato al solo investor relator, o piani bassi equipollenti.

Se invece cerco di individuare fenomeni dai dati, non so se 80 campioni mi bastino.

Che i test di significatività statistica non vivano un bel periodo è noto e tra l'altro io sono d'accordo col ridimensionarne l'importanza però l'esempio del singolo campione che fai non mi pare molto "statistico", mi sembra ben più deterministico...e forse intendevi proprio questo.
 
Che i test di significatività statistica non vivano un bel periodo è noto e tra l'altro io sono d'accordo col ridimensionarne l'importanza però l'esempio del singolo campione che fai non mi pare molto "statistico", mi sembra ben più deterministico...e forse intendevi proprio questo.

Il singolo campione era una provocazione.
La teoria dei "piccoli campioni" no.
In borsa e' importante cogliere i fenomeni deterministici fin dall'inizio, sulla base dei piccoli campioni e sulla plausibilita' del fenomeno sottostante che genera l'inefficienza presunta.
Quando i campioni raccolti diventano sufficientemente ampi da permetterne la catalogazione ai fini della determinazione, o meno, della significativita' statistica spesso l'inefficienza e' bella e sparita :D
 
Guarda io non so bene quale sia la tua preparazione in quest'ambito (machine learning/data science ecc) e mi scuso per il tono che può trasparire però tu abbi pazienza... E` proprio difficile credere che tu sappia di cosa parli nel momento in cui muovi una critica relativa all'overfitting e poi suggerisci di passare dalle reti superficiali a quelle profonde, te ne rendi conto?
Verrebbe da pensare che tu non sappia bene cosa sia né l'overfitting né una rete profonda.

E` come se vai da uno che progetta motori e gli dici "no guarda questo motore lo stiamo facendo troppo potente, suggerisco di aumentare la cilindrata." Capisci che quello ti guarda male...

ps: non ho ancora capito dov'è l'overfitting in questo caso.

pps: Aggiungo una nota generale. "Overfitting" è una parolina magica che gira sui forum e per la quale di solito il rapporto (cognizione di causa)/(utilizzo del termine) è drammaticamente basso.
Personalmente se vedo overfitting nel lavoro di un collega oltre a buttare lì la parolina magica mi premuro di:
1. capire e spiegare nel modo più esatto possibile quale elemento del modello stia producendo overfitting secondo me.
2. E soprattutto cerco di capire come sia possibile che la cosa non emerga dai test.

Se dai test non emerge o sto sbagliando io a vedere l'overfitting o è sbagliato il test, perché non so se questa cosa è chiara ma l'overfitting non è una roba misteriosa come spesso si fa credere qui. Se stai overfittando la performance crolla sui dati nuovi. Fine. Se non lo fa e i test sono fatti bene ci sono speranze più che ragionevoli che il modello sia solido.
Difficile credere che tu voglia contribuire senza questi due elementi.

Giusto. Unica pecca nel ragionamento - io non sono un tuo collega, non ti conosco e non ho interesse a dedicare un tempo eccessivo a sta roba.

Tu ovviamente hai il diritto a fare quello che vuoi delle mie osservazioni.

Ti ho portato delle motivazioni abbastanza chiare credo, che hai ignorato - fai te.

Riguardo overfitting - hindsight bias e' una forma di overfitting se ci pensi.

E non concordo - overfitting ha sempre un qualcosa di “misterioso”. Non per forza nel senso popolarizzato nel forum (che ignoro), ma ce l’ha. E non potrebbe essere altrimenti - il processo di ricerca di strategie (e machine learning e di apprendimento in generale) in se’ e’ un processo di scoperta di informazione e di cercare di ridurre (mai eliminare) overfitting a un grado che renda le strategie (e gli algoritmi e gli schemi mentali) utilizzabili per un dato scopo e situazione. Per essere esattamente quantificabile e per nulla “misterioso”, si dovrebbe avere una conoscenza universale :).
In pratica poi questo non significa che non possa essere moderato per portare a risultati utlizzabili - con metodologie diverse in ambiti diversi. Ma nei mercati “in generale” e’ particolarmente difficile da studiare, data la loro natura (e per questo vedo il valore nel “lato oscuro” di PGiulia)

Riguardo reti shallow - si', hai proprio capito quello che intendevo :confused:
 
Giusto. Unica pecca nel ragionamento - io non sono un tuo collega, non ti conosco e non ho interesse a dedicare un tempo eccessivo a sta roba.

Tu ovviamente hai il diritto a fare quello che vuoi delle mie osservazioni.

Ti ho portato delle motivazioni abbastanza chiare credo, che hai ignorato - fai te.

Riguardo overfitting - hindsight bias e' una forma di overfitting se ci pensi.

E non concordo - overfitting ha sempre un qualcosa di “misterioso”. Non per forza nel senso popolarizzato nel forum (che ignoro), ma ce l’ha. E non potrebbe essere altrimenti - il processo di ricerca di strategie (e machine learning e di apprendimento in generale) in se’ e’ un processo di scoperta di informazione e di cercare di ridurre (mai eliminare) overfitting a un grado che renda le strategie (e gli algoritmi e gli schemi mentali) utilizzabili per un dato scopo e situazione. Per essere esattamente quantificabile e per nulla “misterioso”, si dovrebbe avere una conoscenza universale :).
In pratica poi questo non significa che non possa essere moderato per portare a risultati utlizzabili - con metodologie diverse in ambiti diversi. Ma nei mercati “in generale” e’ particolarmente difficile da studiare, data la loro natura (e per questo vedo il valore nel “lato oscuro” di PGiulia)

Riguardo reti shallow - si', hai proprio capito quello che intendevo :confused:


Guarda per come la vedo io quello che avviene in questo forum è surreale e inspiegabile. Ed è per questo che mi hai trovato non proprio ben disposto. Si parla di overfitting nei termini che hai appena detto tu e forse se vogliamo affrontare la faccenda dal punto di vista filosofico ha anche un qualche senso farlo (perché dal lato tecnico non ne ha nessuno), ma qui si va ben oltre. Qui c'è tutto un sottobosco di elementi che sono lì a blaterare di cose di cui non hanno idea. E` già qualche anno che sono qui e se da un lato ci sono quelli che davvero vogliono condividere conoscenze ed esperienze dall'altro c'è una larga fetta di utenti che si comportano sempre nello stesso modo. I tratti tipici sono i seguenti:

1. Usano sempre le stesse paroline. "Overfitting" è la più gettonata.
2. Non hanno MAI davvero nessun intento costruttivo o di condivisione. Lo scopo del gioco è sempre boh...non l'ho mai davvero capito. Deridere? Farsi belli? Ai posteri l'ardua sentenza.
3. Dietro quello che dicono non c'è mai niente. Muovono critiche sibilline che non scendono mai nel tecnico perché non hanno i mezzi per farlo. Il tanto che basta per sembrare esperti e far sembrare dilettanti gli esperti veri (che infatti nella maggior parte dei casi stanno ben lontani da qui.)
4. La loro reale competenza nella migliore delle ipotesi è l'1% di quella che millantano.

Rimaniamo sull'overfitting per esempio.
C'è la sacerdotessa PGiulia che praticamente ha fondato una religione dietro lo spauracchio del terribile e vendicativo Dio Overfitting. Un Dio che ovviamente comunica solo a lei il suo volere e quindi lei è la detentrice di questo sapere mistico di cui nessuno è degno. Tiene un thread nell'altro forum con migliaia di pagine solo per parlare di overfitting...Ma stiamo scherzando? Hai idea di quanta gente ha imbambolato con 'sta storiella?

Ora ti dico io cos'è l'overfitting. Se prendi la certificazione sul machine learning che attualmente rilascia Stanford all'overfitting è dedicata una lezione o due. Tutto qui. Non 10 anni di fuffa in un thread, ma solo due lezioni. Perché se hai una qualche competenza universitaria di base l'overfitting è una scemata ecco la verità. E` pane quotidiano per migliaia di data scientist, non c'è niente di mistico o di misterioso.

Overfitting è quando un modello ha un alto potere previsionale sul suo training set ma poi non ha potere di generalizzazione e la sua performance crolla sui dati nuovi. Fine della storia.
Quindi, udite udite, è sufficiente che tu abbia dati freschi su cui testare il modello e saprai se c'è overfitting o no.
Ecco qui, 3 righe. Non tremila pagine di thread. Solo 3 righe. Tutto qui.

Se io avessi dato retta a PGiulia e ad altri illustri troll fuffari ad oggi non avrei un lavoro e starei sui forum a blaterare di pseudoscienza.


Ora ti mostro che è esattamente tutto qui. Questo che segue è il modello a cui sto lavorando ora:

Porto Seguro’s Safe Driver Prediction | Kaggle

Tutto molto semplice, un problemino di classificazione. La storia più vecchia del mondo, una compagnia di assicurazioni auto vuole un modello previsionale su big data per stabilire chi avrà incidenti e chi no per adeguare i premi. (Tra l'altro ci sono 25k $ per i primi classificati.)
Ora le modalità sono le seguenti:
1. Nella sezione Data trovi un db di training e uno di test.
2. In quello di test non sono presenti i target quindi lì non puoi addestrare nulla.
3. Tu addestri un modello secondo i mezzi che hai sul db di training.
4. Produci uno forecast sul db di test e glielo mandi.
5. Loro misurano la performance (coefficiente di Gini) del tuo forecast e quelli con la performance più alta vincono e sono tenuti a consegnare il codice.


Ora, tutto quello che vogliono sapere per ritenere il tuo modello valido, pagarti e rendere il modello operativo (in volumi d'affari di centinaia di milioni,) è se il tuo modello va bene o male su un set su cui non ha ricevuto addestramento. Se va bene lo ritengono solido e non soggetto a overfitting.

FINE

DELLA

STORIA



La prossima obiezione sarà "sì ma che ne sanno loro, vuoi mettere con PGiulia? Questi sono solo poveri assicuratori brasiliani..."

Benissimo.

Passenger Screening Algorithm Challenge | Kaggle

Questo è un contest indetto direttamente dall'homeland security americana per l'antiterrorismo. In palio mettono un milione e mezzo. Il problema è molto più complesso perché richiede modelli avanzati per l'image recognition (il deep learning di cui parlavamo per intenderci...) ma le modalità di assegnazione del premio sono assolutamente identiche.

Per concludere, il punto è che overfitting e tante altre amenità sono semplici strumenti del mestiere per alcuni che sanno quello che fanno e fuffa da forum per altri. Qui purtroppo ci sono un sacco di "altri".
 
...C'è la sacerdotessa PGiulia che praticamente ha fondato una religione dietro lo spauracchio del terribile e vendicativo Dio Overfitting. Un Dio che ovviamente comunica solo a lei il suo volere e quindi lei è la detentrice di questo sapere mistico di cui nessuno è degno. Tiene un thread nell'altro forum con migliaia di pagine solo per parlare di overfitting...Ma stiamo scherzando? Hai idea di quanta gente ha imbambolato con 'sta storiella?...

Chiedo venia, ma ci tengo a specificare un piccolo particolare: il thread "overfitting" non l'ho creato io, ma la moderazione del forum da una costola di un altro thread, e NON su mia richiesta.

Comunque "sacerdotessa" mi piace, è nuovo e originale!!! OK!
 
Guarda per come la vedo io quello che avviene in questo forum è surreale e inspiegabile. Ed è per questo che mi hai trovato non proprio ben disposto. Si parla di overfitting nei termini che hai appena detto tu e forse se vogliamo affrontare la faccenda dal punto di vista filosofico ha anche un qualche senso farlo (perché dal lato tecnico non ne ha nessuno), ma qui si va ben oltre. Qui c'è tutto un sottobosco di elementi che sono lì a blaterare di cose di cui non hanno idea. E` già qualche anno che sono qui e se da un lato ci sono quelli che davvero vogliono condividere conoscenze ed esperienze dall'altro c'è una larga fetta di utenti che si comportano sempre nello stesso modo. I tratti tipici sono i seguenti:

1. Usano sempre le stesse paroline. "Overfitting" è la più gettonata.
2. Non hanno MAI davvero nessun intento costruttivo o di condivisione. Lo scopo del gioco è sempre boh...non l'ho mai davvero capito. Deridere? Farsi belli? Ai posteri l'ardua sentenza.
3. Dietro quello che dicono non c'è mai niente. Muovono critiche sibilline che non scendono mai nel tecnico perché non hanno i mezzi per farlo. Il tanto che basta per sembrare esperti e far sembrare dilettanti gli esperti veri (che infatti nella maggior parte dei casi stanno ben lontani da qui.)
4. La loro reale competenza nella migliore delle ipotesi è l'1% di quella che millantano.

Rimaniamo sull'overfitting per esempio.
C'è la sacerdotessa PGiulia che praticamente ha fondato una religione dietro lo spauracchio del terribile e vendicativo Dio Overfitting. Un Dio che ovviamente comunica solo a lei il suo volere e quindi lei è la detentrice di questo sapere mistico di cui nessuno è degno. Tiene un thread nell'altro forum con migliaia di pagine solo per parlare di overfitting...Ma stiamo scherzando? Hai idea di quanta gente ha imbambolato con 'sta storiella?

Ora ti dico io cos'è l'overfitting. Se prendi la certificazione sul machine learning che attualmente rilascia Stanford all'overfitting è dedicata una lezione o due. Tutto qui. Non 10 anni di fuffa in un thread, ma solo due lezioni. Perché se hai una qualche competenza universitaria di base l'overfitting è una scemata ecco la verità. E` pane quotidiano per migliaia di data scientist, non c'è niente di mistico o di misterioso.

Overfitting è quando un modello ha un alto potere previsionale sul suo training set ma poi non ha potere di generalizzazione e la sua performance crolla sui dati nuovi. Fine della storia.
Quindi, udite udite, è sufficiente che tu abbia dati freschi su cui testare il modello e saprai se c'è overfitting o no.
Ecco qui, 3 righe. Non tremila pagine di thread. Solo 3 righe. Tutto qui.

Se io avessi dato retta a PGiulia e ad altri illustri troll fuffari ad oggi non avrei un lavoro e starei sui forum a blaterare di pseudoscienza.


Ora ti mostro che è esattamente tutto qui. Questo che segue è il modello a cui sto lavorando ora:

Porto Seguro’s Safe Driver Prediction | Kaggle

Tutto molto semplice, un problemino di classificazione. La storia più vecchia del mondo, una compagnia di assicurazioni auto vuole un modello previsionale su big data per stabilire chi avrà incidenti e chi no per adeguare i premi. (Tra l'altro ci sono 25k $ per i primi classificati.)
Ora le modalità sono le seguenti:
1. Nella sezione Data trovi un db di training e uno di test.
2. In quello di test non sono presenti i target quindi lì non puoi addestrare nulla.
3. Tu addestri un modello secondo i mezzi che hai sul db di training.
4. Produci uno forecast sul db di test e glielo mandi.
5. Loro misurano la performance (coefficiente di Gini) del tuo forecast e quelli con la performance più alta vincono e sono tenuti a consegnare il codice.


Ora, tutto quello che vogliono sapere per ritenere il tuo modello valido, pagarti e rendere il modello operativo (in volumi d'affari di centinaia di milioni,) è se il tuo modello va bene o male su un set su cui non ha ricevuto addestramento. Se va bene lo ritengono solido e non soggetto a overfitting.

FINE

DELLA

STORIA



La prossima obiezione sarà "sì ma che ne sanno loro, vuoi mettere con PGiulia? Questi sono solo poveri assicuratori brasiliani..."

Benissimo.

Passenger Screening Algorithm Challenge | Kaggle

Questo è un contest indetto direttamente dall'homeland security americana per l'antiterrorismo. In palio mettono un milione e mezzo. Il problema è molto più complesso perché richiede modelli avanzati per l'image recognition (il deep learning di cui parlavamo per intenderci...) ma le modalità di assegnazione del premio sono assolutamente identiche.

Per concludere, il punto è che overfitting e tante altre amenità sono semplici strumenti del mestiere per alcuni che sanno quello che fanno e fuffa da forum per altri. Qui purtroppo ci sono un sacco di "altri".

Zio razzoli male. La pappina filosofica era per dirti che qualcosa di misterioso a livello teorico c'è. Quindi per me quando fai queste osservazioni dovresti essere molto cauto.

A livello pratico, non mi stai davvero paragonando competizioni di kaggle con i mercati no? Perché la differenza sta tutta in quello che cerchi di modellare. Image recognition non è per nulla più complicato di predire i mercati "in generale".
E specie se lavori come data scientist e hai un interesse in finanza, dovresti capirlo facilmente.

Se poi posso darti un parere, ti direi anche di non imparanoiarti con dinamiche da forum...se no finisci per crearti accounts finti ogni mese :D :p

Comunque, in bocca a lupo :) ciao
 
Zio razzoli male. La pappina filosofica era per dirti che qualcosa di misterioso a livello teorico c'è. Quindi per me quando fai queste osservazioni dovresti essere molto cauto.

A livello pratico, non mi stai davvero paragonando competizioni di kaggle con i mercati no? Perché la differenza sta tutta in quello che cerchi di modellare. Image recognition non è per nulla più complicato di predire i mercati "in generale".
E specie se lavori come data scientist e hai un interesse in finanza, dovresti capirlo facilmente.

Se poi posso darti un parere, ti direi anche di non imparanoiarti con dinamiche da forum...se no finisci per crearti accounts finti ogni mese :D :p

Comunque, in bocca a lupo :) ciao

Guarda non mi riferivo a te quando parlavo del sottobosco di fuffari. Tu sei solo nel thread sbagliato al momento sbagliato, ma non ho niente contro di te.
Per il resto in teoria è vero che la previsione dei mercati non è necessariamente più semplice dell'image recognition. In pratica però 9999 volte su 10000 lo è. A meno di approcci esotici (che quelli sì puzzano di overfitting lontano un chilometro) la previsione dei mercati è un problema quasi sempre affrontabile in termini di regressione non lineare o di classificazione (o al limite di analisi di serie storiche) mentre l'image recognition è intrinsecamente più complicato e richiede approcci più complicati (reti deep a convoluzione per lo più.)
L'unica complessità che c'è nei mercati e che è più contenuta altrove è nel fatto che quando si vogliono prevedere i mercati non si è quasi mai certi che effettivamente ci sia una relazione funzionale da agguantare con qualche modello.
Questo per me si traduce solo nell'avere più cautela, ossia:
1. test set più grandi
2. non uso metodi automatici per la selezione delle variabili ma le scelgo io in base a criteri di causalità che siano più ovvi e oggettivi possibile.

Crepi il lupo e buona fortuna anche a te!

ps: mi hai confuso anche tu con Ernesto? Mi trovo sempre mille messaggi di gente che crede che io sia lui... Io di account ne ho e ne ho sempre avuto uno solo.
 
Grazie per esserti preso il tempo e la pazienza di scrivere tutte quelle cose in una sezione praticamente morta, vorrei solo riassumerti un elemento fondamentale in cui potresti essere incappato nella lettura di quel thread su IO e che illustri quantitativi hanno più volte evidenziato perché penso che sia un utile stimolo per il tuo lavoro:

  • quando elabori un modello per la probabilità di incidente stradale, gli automobilisti non si adeguano al tuo modello cambiando stile di guida;
  • quando addestri una DNN per il riconoscimento delle immagini, queste non si adeguano alla tua rete per evitare di essere riconosciute;
  • quando scopri una inefficienza sui mercati finanziari e la catturi con un modello, anche se quel modello resiste al test set c'è una elevata probabilità che qualcun altro sia arrivato (o stia arrivando) ai tuoi stessi risultati. E quindi più o meno velocemente accade una cosa che negli altri ambiti (scienze naturali, demografia etc. etc.) non accade: la variabile indipendente incorpora gli effetti delle tue/vostre previsioni e questo si riflette nelle performance del modello.
Non so da quanto tempo fai trading (e quindi non so se ti sei accorto di questa cosa da solo per esperienza), ma se rifletti sui mercati finanziari nel loro complesso da un punto di vista storico ti rendi conto che è una regola d'oro: se oggi dobbiamo tirare su un ponte, non usiamo leggi della fisica e della statica diverse da quelle che si usavano vent'anni fa, abbiamo solo più potenza computazionale, materiali più avanzati e più esperienza; in finanza, invece, qualunque legge o modello efficace perde rapidamente di efficacia quanto più rapidamente è adottato e diffuso.

Forse è sbagliato chiamare questo fenomeno «overfitting», ma non puoi banalizzare il problema riconducendolo alla robustezza del modello nell'out-of-sample.

Ciao :)
 
...Forse è sbagliato chiamare questo fenomeno «overfitting»...

Sicuramente è sbagliato.

Sono due cose diverse.
Quello che qui evidenzi, verso gli inizi del thread "overfitting" lo ribattezzai con licenza poetica come "principio di indeterminazione di Heisenberg applicato ai mercati finanziari" (ormai nel deep lo chiamano tutti così! :o)

Sono entrambe pilastri del trading professionale.

P.S. Se mi sbaglio lasciatemi l'illusione per favore, ma rileggendovi a distanza riconosco il mio "imprinting", e mi fa felice credere di aver lasciato qualcosa di buono su questi forum! :D
 
in finanza, invece, qualunque legge o modello efficace perde rapidamente di efficacia quanto più rapidamente è adottato e diffuso.

Questa descrizione riflette solo il lato "classico", didascalico, dei mercati: c'e' anche il lato nascosto, oscuro e diametralmente opposto.
E' il problema della forzatura giuridica, la strada giuridica volta a forzare l'interpretazione corrente dei mercati che e' un aspetto assolutamente trascurato nei libri di finanza aziendale.

Io, che sia legislatore, Authority, Autorita' di Vigilanza, posso forzare il mercato nella direzione opposta alla modellistica prevalente fino ad ora utilizzata per trattare fenomeni analoghi in base a leggi/regolamenti/testi unici esistenti.

In questo caso non vince chi prima adotta il modello giusto.
Vince chi forza giuridicamente il mercato ad adattare nuove leggi o estensione di leggi ai modelli esistenti.

E guarda che non mi riferisco unicamente al ruolo del legislatore sopra le parti o all'azionista di maggioranza che puo' forzare il mercato nella direzione voluta (es. clausole di CAC, consent litcitation, etc.) contro gli azionisti di minoranza.

La casistica piu' recente ha mostrato che anche gli azionisti di minoranza possono impugnare strumentalmente o addirittura abusare del diritto per ottenere obiettivi di guadagno in base ad una etica di mercato largamente condivisa per assicurare vantaggi ai poveri/incapitenti/disinformati. Non sara' un caso, vero, che gli hedge fund raccattavano i bond UT2 MPS ?
Mi riferisco anche al ruolo del piccolo azionista di minoranza che puo' promuovere cause (Delaware), impugnare sentenze etc.
O come nel caso degli avvocatuncoli divenuti miliardari con azioni di ostruzione con le azioni di risparmio precedentemente raccattate sul mercato.

Vedere il mercato unicamente come un sistema ecologico di modelli autoadattativi il cui successo e' determinato unicamente dalla velocita' di adattamento e' riduttivo della complessa realta' sottostante dominata dai giuristi di professione, che cercano in tutti i modi e con tutti gli appigli legali di cui sono capaci di modificare le regole per trarne beneficio personale.

Ciao
 
Indietro