1. podziel zbior danych jakimi dysponujesz na 2 czesci
+ czesc na ktorej bedziesz dokonywal poszukiwan ( In-sample)
+ czesc na ktorej bedziesz sprawdzal czy nie spierdoliles ( Out-of-sample)
proporcja miedzy IN i OUT w mojej opini powinna byc typu FIBO
61.8/38.3 66.6/33.33 max 75/25
czyli "wieksza polowa" w IN
2. w zbiorze IN ustal interwal max dzielac czas zbioru przez 30 000
kiedys na poczatku lat 2000 skazywalo nas to na prace w interwale 5 minutowym, teraz smialo dysponujac danymi np od 2001 roku mozna pracowac w interwale 15 minutowym a nawet wyzszym.
okres IN musi byc na tyle dlugi aby zawieral 3 fazy: hosse, besse, palowanie
w praktyce okres In musi byc co najmniej 3-4 letni.
3. w zbiorze IN Sample uwazaj na ilosc parametrow optymalizowanych
kilka jest lepsze niz kilkanascie, jesli masz kilkadziesiat to szkoda zaczynac nawet. Sprobuj uproscic system do 3 kluczowych elementow na ktorych system musi byc efektywny i sa kluczowe. Zaluzmy ze mamy 9 klockow z czego 3 sa glowne, 3 wazne, 3 dodatkowe.
wiedza o tym co jest z elementow systemu kluczowe, co wazne a co dodatkowe moze byc wazna sama w sobie. moze pozwoli zredukowac system a tym samym zwiekszyc szanse na efektywnosc w przyszlosci.
Nie optymalizuj wszystkich parametrow na raz im wiecej masz optymalizacji odnoszac to do ilosci swieczek w zbiorze IN tym bardziej rosnie ryzyko w zasadzie pewnosc ze znajdziesz przypdakowy zestaw parametrow ktory niejako opisuje dane, dopasowal sie do danych. wykaze wspaniala zyskownosc na danych historycznych a w realu rozwali sie na pierwszym zakrecie. Istnieje zaleznosc miedzy dlugoscia danych w Insample i ich interwale a ryzykiem dopasowania. jesli masz w Insample 30K swieczek i wykonasz 300K kombinacji optymalizacyjnych to na 1 swieczke masz 10 optymalizacji co "zapewnia" znalezienie pozornego gralla. zalozmy ze dobry poziom to 33%. czyli przy zbiorze 30K swieczek ( 1 sesja to ok 30 swieczke 15 minutowych, czyli to 1000 sesji czyli 4-5 lat ) to 10K optymalizacji. Nie optymalizuj wszystkiego z wszystkim, w naszym przykladzie z systemem opartym na 9 elementach sklasyfikowanych pod wzgledem waznosci na: "musza byc", "powinny byc", "moga byc", sesnsowne bedzie sprawdzenie w 1 grupie, nastepnie w 2 i nastpenie w 3.
zastanow sie czy system mozesz rozbic na 2 czy 3 osobne. wtedy kazdy z nich jako prostrzy jest mniej narazony na przeoptymalizowanie. Na koncu mozesz je polaczyc na zasadzie kompilacji czyli glosowanie miedzy systemami. wtedy skomplikowanie roznie liniowo a nie geometrycznie, liczba parametrow jakby dodaje a nie mnozy wzajemnie.
4. sprawdzaj obszary stabilnosci na wykresach warstwicowych dla zestawu 3 danych. np jak sie zmienia OSS dla kombinacji parametru A i B.
uwazaj na te ktore daja wykresy typu Rysy a preferuj te typu Bieszczady gdzie zbocza lagodnie opadaja od szczytu. wybieraj te z centrum obszaru a niekoniecznie nominalnie z najwieksza wartoscia.
5. ustal wlasciwa funkcje celu swoim poszukiwaniom. defaultowa jest maksymalizacja NetProfitu czyli punktow co nie jest wlasciwe.
mozesz uwzglednic DD, ale raczej nie max a sredni.
mozesz szukac maksymalizacji OSS czyli oczekiwanej Skutecznosci Systemu. Warto badac jaki jest sredni zysk na transakcje ( suma zysku/ilosc wszystkich transakcji, zyskownych i stratnych)
Poniewaz docelowo interesuje nas zrealizowanie znalzezionej efektywnosci systemu w praktyce wartosc ta powinna np dla Fw20 przekraczac 10 pkt ( 10pkt dostatecznie 15 dobrze 20 pkt bardzo dobrze )
6.sprawdz czy nie zjebales
jesli juz zakonczyles sprawdz na ukrytych w pkt 1 danych Out-of-sample
tu najwazniejsze jest czy na Out paramemetry efektywnosci z funkcji celu sie nie zalamuja. normalne jest ze bedzie negatywne odchylenie, ale nie powinno ono byc duze. 20% jeszcze jest do zaakceptowania ale 50% swiadczy o nieuniwersalnosci twojego odkrycia.