Il punto principale è che il ML a cui fai riferimento in qualsiasi ambito lo si usi è un modo per far fare a una macchina ciò che già faceva prima un essere umano esperto. Tutto qua.
Siccome non siamo in grado di programmare l'esperienza, usiamo dei modelli matematici per mapparla dai dati alle macchine e agli algoritmi.
Questo presuppone un elemento fondamentale che c'è in qualsiasi settore meno che nel trading: qualcuno che sappia cosa fare e da cui sia possibile copiare. Qui servirebbe il ML: regressioni, classificazioni, tabelle di policy ottimali, analisi del linguaggio, computer vision... Tutto presuppone che ci sia un essere umano che è stato capace di imparare cosa fare e come farlo per creare valore, che tu puoi osservare e da cui la macchina impara.
Il problema nel nostro ambito è che quelle persone semplicemente non esistono: se ci fosse qualcuno che ti spiega come fare soldi sui mercati, il paradosso è che nemmeno ti servirebbe il ML.
Ovvero: quando capisci quali dati guardare, come e in che contesto, non hai nemmeno più bisogno di una rete neurale profonda: bastano poche regolette del pollice.
Per rispondere alla tua domanda: non cerchi anomalie frullando a caso, perché quello è il modo migliore per avere illusioni ottiche facendo modellare alla macchina solo rumore.
Viceversa, formuli una teoria che stia in piedi perché i mercati sono fatti da un esercito di squilibrati, frizioni e vincoli esogeni; poi raccogli i dati e cerchi di capire se ci hai visto giusto; solo a quel punto - se senti il bisogno di fare qualche passaggio analitico in tempi non praticabili per l'essere umano - ti rivolgi all'algoritmo di ML.
Alla fine sono ripetitivo ma il tutto si riduce sempre a intuire (o ipotizzare) alle spalle di chi stai facendo soldi e perché.
Quando ti lanci a provare un algoritmo senza avere abbozzato una risposta a questa domanda stai già sicuramente sbagliando approccio.
Ciao Cren, grazie della risposta.
Logicamente con "frullare" intendevo semplicemente dare in pasto al modello di ML i dati scelti per farli processare, non infilare cose a caso.
E' pur vero che l'approccio forse più comune e pregiudiziale al ML, che poi lo ammetto è sempre stato anche il mio, sia quello di usarlo come scatola delle soluzioni.
Nel senso di fargli fare quello che io non riuscirei a fare, cercare e trovare risposte nella mole dei dati improcessabili per l'occhio umano. Gli dai dati e lui ci trova qualcosa, non si sa cosa ma ti fidi. E' la famosa black box.
Eppure il controsenso di questo dovrebbe essere ovvio ma non lo è. Se basta "frullare" e prendersi i frutti lo fanno tutti, aspettano e si ritrovano la soluzione.
Viceversa sapere dove e cosa cercare e farsi aiutare nella ricerca presuppone logica, competenza e comprensione dei mercati. Va da sè che, come dici te, a quel punto basti te col tasto del mouse e il turbo mega learning diventa un cannone in una vetreria.
Solo che rimangono comunque punti oscuri, soprattutto nell'approccio di Amartya che viaggia su altri livelli di competenze matematiche che non posso sfruttare.
Esempio: sono convinto che ci sia una anomalia ciclica il lunedi pomeriggio alla chiusura del Nasdaq, l'ho notata e voglio quantificarla verificando la consistenza e il potenziale.
Uso un modello statistico (non so, cerco distribuzioni o calcolo volatilità con test vari ecc.)? Formulo, come fa Amartya con un approccio da teorico, un modello del tutto nuovo sulla lavagna piena di formule? Rimedio features attinenti a quel problema (che so dati giornalieri detemporalizzati, volatilità in chiusura ecc.) e li uso come carburante di una rete neurale che poi macina e trova pattern significativi senza dirmi perchè?
Ma allora se quell'inefficienza l'avevo notata non serve nemmeno la statistica, nemmeno uno z-score calcolato al volo su Python, mi faccio qualche settimana di trading discrezionale per testarlo e vedo se vado in profitto
Da quello che ho visto comunque, anche parlando con trader quant esteri, l'approccio più potente (per un retail) come risultati e potenziale oltre ad essere la cameriera di Draghi o seguire le mani forti sui volumi mi dicono sia il reinforcement learning con algoritmi genetici o neuroevoluzione, abbinato a dati tick o ancora meglio sull'order book. Di fatto fai il market maker ma senza latenza da hft, operi ogni 3/4 minuti invece che sui microsecondi. Confermi? E' solo curiosità la mia, al momento sono dedicato 100% al discrezionale sui futures