Quand on est stupide comme moi...
Par eau le mardi 2 décembre 2008, 15:02 - geeking - Lien permanent
Je cherchais a comprendre des choses, jusque la rien de surprenant, j'ai commence a matter comment je pourrais differencier certains pattern d'autres, au sein d'un meme fichier.
C'est un probleme "classique", je sais!, vous avez une reponse, j'imagine bien (au pire commentez), mais comme je suis un peu stupide, j'essaye de comprendre.
Alors en posant la question autour de moi, une des reponses m'a intrigue, c'est: "mesure l'entropie!"
Wai alors pour la definition, je dois vous avouer, apres qqes debats et discussions sur la definition de l'entropie, il y en a qqes unes, voir meme pleins, ca depend des donnees a analyser, de la taille de la lune, de la couleur de la farine apres une journee au soleil, etc.. bref (allez voir wikipedia, theorie de l'information blablabla)...
Mais surtout aujourd'hui on m'a parle d'un outil "stan" qui semblerait pourrait donner l'illustration d'une (parmis d'autres) reponse a mes questions, alors je matte et je fais un test tout bete :
$ ./stan -b test.txt.gz General statistics for the stream, bytes 75 Arithmetic mean: 101.786667 ~ 0x65(e) Median: 115.000000 ~ 0x73(s) Deviation: 69.466979 ~ 0x45(E) Chi-Square test: 520.023529 Entropy per byte: 5.241939 Correlation co.: 0.390945 [...]
VS
$ ./stan -b testrnd General statistics for the stream, bytes 75 Arithmetic mean: 113.720000 ~ 0x71(q) Median: 106.000000 ~ 0x6a(j) Deviation: 74.741610 ~ 0x4a(J) Chi-Square test: 205.423529 Entropy per byte: 5.925420 Correlation co.: -0.148000 [...]
Et on observe qqes "debut" de difference... c'est marrant, maintenant faut essayer de comprendre... quand on est stupide comme moi...
$ vim stan.c bits.c pattern.c stats.c [...]
