Analisi dei risultati con R

f4b1069

Nuovo Utente
Registrato
7/1/08
Messaggi
130
Punti reazioni
9
Buongiorno a tutti,
sto cercando di imparare ad usare R e a lavorare in modo un po' piu' "matematico" e statistico.
Nell'ultimo periodo per ogni trade che faccio mi segno alcuni parametri (Pippo,Pluto,Paperino,Minni,Qui,Quo,Qua) relativi alla trade.
Se questi parametri sono rispettati segno un 1 se no uno 0. Ho anche una colonna con la somma di questi parametri (TOTALE)
Ho una colonna Vincente (SI/NO) a seconda che la trade sia andata bene o male e una colonna risultato con il risultato in PIPS.

[Figura in basso]:yes:

Ora, vorrei vedere se e come questi parametri influiscono sui miei risultati (al momento ho circa 200 trades in archivio...)
Grazie agli ottimi aiuti di CREN e SURCONTRE ho iniziato a pasticciare con "R".


Al momento con un t.test verifico se ci sono differenze significative nelle variabili (per esempio Minni) in relazione a VINCENTE.


*****************************************************************************************************************************************
> t.test(Minni~Vincente, alternative='two.sided', conf.level=.95,
+ var.equal=FALSE, data=dati__version_1_)

Welch Two Sample t-test

data: Minni by Vincente
t = 2, df = 8, p-value = 0.08052
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-0.05100069 0.71766736
sample estimates:
mean in group NO mean in group SI
1.0000000 0.6666667
*****************************************************************************************************************************************

E valuto il livello del p-value per verificare significativita'.

Questo procedimento lo faccio per tutte le variabili in relazione con VINCENTE.

Le mie domande sono queste (considerate che sono all'ABC di R e della statistica....) non infierite per favore :specchio:

Sto facendo una cosa corretta (valutando differenze statisticamente significative delle medie rispetto al risultato) per valutare quali variabili tenere maggiormente presenti prima di entrare in una trade ?
Quanti record (che campione) dovrei avere per avere una statistica accettabile ?
C'e' un modo (con R) per verificare in un solo passaggio differenze significative della media (una sorta di t-test ma contemporaneo su tutte le variabili contro VINCENTE) al posto di fare il t-test per ogni variabile ? Eventualmente mi sapreste indicare qualche comando ?
Come posso verificare l'influenza delle variabili (Pippo, Pluto, etc) rispetto alla variabile Risultato che non e' (SI/NO) ma numerica ?
Per approfondire .... mi sapreste indicare un testo che mi prenda per mano nella statistica e mi dia una base consistente ?
Ho gia' visto l'ottimo thread di Ernesto .. ma cercavo un testo di riferimento per statistica di base.

Ogni suggerimento e' bene accetto.

Vi ringrazio. OK!
 

Allegati

  • trades.gif
    trades.gif
    12,7 KB · Visite: 201
Quanti record (che campione) dovrei avere per avere una statistica accettabile ?
Con un campione normalmente distribuito, per esperienza una trentina di osservazioni comincia già a dare risultati congruenti; siccome credo che il tuo campione di osservazioni sia tutto meno che normalmente distribuito, direi che qualche centinaio di osservazioni è un buon punto di partenza.
C'e' un modo (con R) per verificare in un solo passaggio differenze significative della media (una sorta di t-test ma contemporaneo su tutte le variabili contro VINCENTE) al posto di fare il t-test per ogni variabile ? Eventualmente mi sapreste indicare qualche comando ?
Certamente, però prima è necessario specificare un modello.

Vedi nel seguito.
Come posso verificare l'influenza delle variabili (Pippo, Pluto, etc) rispetto alla variabile Risultato che non e' (SI/NO) ma numerica ?
Un'idea potrebbe essere quella di usare un modello non lineare binario, come il Probit o il Logit.

Se la tua serie è costituita da un "1" ogniqualvolta c'è un vincente e uno "0" ogniqualvolta c'è un perdente, puoi cercare di capire se le variabili che hai considerato hanno un qualche potere esplicativo procedendo in questo modo:
Codice:
summary(glm(y ~ X, family = binomial(link = probit)))
assumendo che y sia la tua serie di vincenti/perdenti e X la matrice delle tue variabili.

Con quel comando avrai una stima dell'impatto che la variabile ha nel determinare un'operazione vincente o una perdente, e uno schema che, dopo che avrai studiato i test di ipotesi come argomento di statistica, ti sarà molto facile interpretare.

Questo è solo uno dei molti modi che ci sarebbero per capire qual è l'impatto di quei dati che hai raccolto sulla tua operatività: in questo caso stai costruendo un modellino molto semplice per determinare la probabilità di un trade vincente sulla base delle variabili che hai raccolto.

Se invece, anzichè una serie binaria, ne hai una numerica, si può partire dai modelli lineari per cominciare a capire se c'è un legame tra le variabili raccolte e i tuoi risultati.

Per esempio, il semplicissimo
Codice:
summary(lm(y ~ X))
prevede che y in questo caso sia la tua serie di guadagni e X la solita matrice di dati; si interpreta allo stesso modo dell'altro modello, e cerca di capire se la performance del tuo trade si può spiegare linearmente da quelle variabili.
Per approfondire .... mi sapreste indicare un testo che mi prenda per mano nella statistica e mi dia una base consistente ?
Per le basi (prima di passare ad Amisano, insomma :D) qualunque testo universitario per un corso di statistica base può andare bene; eventualmente suggerisco di farsi dei giri sui siti dei dipartimenti universitari per trovare del materiale e delle indicazioni utili.

Per test d'ipotesi, le cose dovrebbero essere ancora più semplici, ma dobbiamo prima specificare bene ipotesi nulla e ipotesi alternativa :)

Permettimi di farti anche i miei complimenti, perchè a mio modesto avviso analizzare in questo modo le proprie performance è una mossa intelligente e azzeccata che può anche dare sorprese ;)
 
Ultima modifica:
Ma...

questi pippo, pluto etc dovrebbero essere indipendenti....
 
Ma...

questi pippo, pluto etc dovrebbero essere indipendenti....

Linearmente indipendenti sì, per scongiurare il rischio di multicollinearità. Il che ovviamente non significa "con matrice di covarianza diagonale".

TB
 
Credo....
 

Allegati

  • FOL231.jpg
    FOL231.jpg
    54,1 KB · Visite: 194
Linearmente indipendenti sì, per scongiurare il rischio di multicollinearità. Il che ovviamente non significa "con matrice di covarianza diagonale".

TB

:mmmm:

Sei sicuro???? Io credo che Paolo intenda:

"vabbè che sti Pluto,Pippo,Minni,Topolino sono abitanti di Topolinia e mezzi imparentati..ma non è che sono la stessa cosa con nomi diversi????"

Credo eh!!!!
 
:mmmm:

Sei sicuro???? Io credo che Paolo intenda:

"vabbè che sti Pluto,Pippo,Minni,Topolino sono abitanti di Topolinia e mezzi imparentati..ma non è che sono la stessa cosa con nomi diversi????"

Credo eh!!!!

Eh,

trovare 5 o 6 parametri indipendenti, mica è semplice....

:)
 
:mmmm:

Sei sicuro???? Io credo che Paolo intenda:

"vabbè che sti Pluto,Pippo,Minni,Topolino sono abitanti di Topolinia e mezzi imparentati..ma non è che sono la stessa cosa con nomi diversi????"

Credo eh!!!!

Non saprei :) Qui in ufficio Pluto Pippo e Minni sono solo i nomi dummies di variabili che usiamo d solito davanti alla macchinetta del caffè. E non sono nemmeno parenti alla lontana.

TB
 
Già...Prof TheBeers...che fa, ce perde colpi???

Ennamo!

:)

Non capisco davvero a cosa ti riferisci. Se Minni Pluto e Pippo sono linearmente dipendenti nessun modello lineare (generalizzato o meno) è stimabile. In tutti gli altri casi, inclusi i logit/probit suggeriti dal buon cren, invece sì. Nella mia esperienza pre-derivati, difficilmente ho trovato matrici di regressori con colonne linearmente dipendenti, ma si vede che per mia fortuna non ho mai smanettato con gli indicatori di AT :)

TB

P.S. Un mio collega ha scritto sterminati codici infarciti di Pippi e Pluti. Beato lui, io sempre a complicarmi la vita con "x" e "y", bah....
 
Basta un test di multicollinearità.

Che so, la funzione
Codice:
collin(sensfun, parset = NULL, N = NULL, which = NULL)
del package FME misura la collinearità di un insieme di variabili.
 
Non capisco davvero a cosa ti riferisci. Se Minni Pluto e Pippo sono linearmente dipendenti nessun modello lineare (generalizzato o meno) è stimabile. In tutti gli altri casi, inclusi i logit/probit suggeriti dal buon cren, invece sì. Nella mia esperienza pre-derivati, difficilmente ho trovato matrici di regressori con colonne linearmente dipendenti, ma si vede che per mia fortuna non ho mai smanettato con gli indicatori di AT :)

TB

P.S. Un mio collega ha scritto sterminati codici infarciti di Pippi e Pluti. Beato lui, io sempre a complicarmi la vita con "x" e "y", bah....

Ma infatti è proprio questo che dice Paolo.

"Che me fai vedè sta cosa se prima, la prima cosa in assoluto che devi fare, è farmi vedere che i tuoi predittori sono indipendenti?"

Sempre imho...:)

Mi fai un esempio di tre(solo tre) predittori indipendenti utili a tutti noi?

Con calma sempre..senza fretta.(anche 2017)

:)
 
......

Se la tua serie è costituita da un "1" ogniqualvolta c'è un vincente e uno "0" ogniqualvolta c'è un perdente, puoi cercare di capire se le variabili che hai considerato hanno un qualche potere esplicativo procedendo in questo modo: .................

Mi metto al lavoro !!
Tornero' (immagino) se avro' qualche dubbio :confused:


Per le basi (prima di passare ad Amisano, insomma :D) qualunque testo universitario per un corso di statistica base può andare bene; eventualmente suggerisco di farsi dei giri sui siti dei dipartimenti universitari per trovare del materiale e delle indicazioni utili.

Mi metto alla ricerca OK!


Permettimi di farti anche i miei complimenti, perchè a mio modesto avviso analizzare in questo modo le proprie performance è una mossa intelligente e azzeccata che può anche dare sorprese ;)

Grazie, diciamo che serve a fare un po' di ordine e ad alleggerire e ottimizzare il lavoro ... spero ;)

Grazie ancora. OK!
 
Ma infatti è proprio questo che dice Paolo.

"Che me fai vedè sta cosa se prima, la prima cosa in assoluto che devi fare, è farmi vedere che i tuoi predittori sono indipendenti?"

Scusate se mi intrometto.... ma se fate riferimento alle mie variabili..... penso che si possa assumere che per molte di loro ci sia una certa indipendenza....
Non so se riesco a fare il test proposto da CREN per avere dati "scientifici"...

Basta un test di multicollinearità.

Che so, la funzione
Codice:
collin(sensfun, parset = NULL, N = NULL, which = NULL)
del package FME misura la collinearità di un insieme di variabili.


... ma "ad occhio" la maggior parte delle variabili che ho preso in esame dovrebbero essere abbastanza indipendenti.

Provero' cmq ad effettuare il test suggerito da CREN.

Grazie a tutti per gli input e i suggerimenti OK!
 
Scusate se mi intrometto.... ma se fate riferimento alle mie variabili..... penso che si possa assumere che per molte di loro ci sia una certa indipendenza....
Non so se riesco a fare il test proposto da CREN per avere dati "scientifici"...




... ma "ad occhio" la maggior parte delle variabili che ho preso in esame dovrebbero essere abbastanza indipendenti.

Provero' cmq ad effettuare il test suggerito da CREN.

Grazie a tutti per gli input e i suggerimenti OK!


Puoi farci qualche esempio delle tue variabili? Solo 3 sono sufficienti, facciamo anche noi qualche test e li confrontiamo

:)
 
Ma infatti è proprio questo che dice Paolo.

"Che me fai vedè sta cosa se prima, la prima cosa in assoluto che devi fare, è farmi vedere che i tuoi predittori sono indipendenti?"

Sempre imho...:)

Mi fai un esempio di tre(solo tre) predittori indipendenti utili a tutti noi?

Con calma sempre..senza fretta.(anche 2017)

:)

Questa volta invece mi rovino: 28 Marzo 2012 ore 17:20 (e poi non dite che vi tratto male). La risposta potrebbe essere: le prime K componenti prioncipali significative estratte, che ne so, da una serie storica di una curva di tassi con N buckets?
 
Puoi farci qualche esempio delle tue variabili? Solo 3 sono sufficienti, facciamo anche noi qualche test e li confrontiamo

:)

A questo puntosono curioso anch'io. Finora ho argomentato in modo generale, ma se le variabili sono tre medie mobili su finestre overlapping qualche rischio porebbe esserci...
 
Indietro