Je cherchais a comprendre des choses, jusque la rien de surprenant, j'ai
commence a matter comment je pourrais differencier certains pattern d'autres,
au sein d'un meme fichier.
C'est un probleme "classique", je sais!, vous avez une reponse, j'imagine
bien (au pire commentez), mais comme je suis un peu stupide, j'essaye de
comprendre.
Alors en posant la question autour de moi, une des reponses m'a intrigue,
c'est: "mesure l'entropie!"
Wai alors pour la definition, je dois vous avouer, apres qqes debats et
discussions sur la definition de l'entropie, il y en a qqes unes, voir meme
pleins, ca depend des donnees a analyser, de la taille de la lune, de la
couleur de la farine apres une journee au soleil, etc.. bref (allez voir
wikipedia, theorie de l'information blablabla)...
Mais surtout aujourd'hui on m'a parle d'un outil "stan" qui semblerait pourrait
donner l'illustration d'une (parmis d'autres) reponse a mes questions, alors je
matte et je fais un test tout bete :
$ ./stan -b test.txt.gz
General statistics for the stream, bytes 75
Arithmetic mean: 101.786667 ~ 0x65(e)
Median: 115.000000 ~ 0x73(s)
Deviation: 69.466979 ~ 0x45(E)
Chi-Square test: 520.023529
Entropy per byte: 5.241939
Correlation co.: 0.390945
[...]
VS
$ ./stan -b testrnd
General statistics for the stream, bytes 75
Arithmetic mean: 113.720000 ~ 0x71(q)
Median: 106.000000 ~ 0x6a(j)
Deviation: 74.741610 ~ 0x4a(J)
Chi-Square test: 205.423529
Entropy per byte: 5.925420
Correlation co.: -0.148000
[...]
Et on observe qqes "debut" de difference... c'est marrant, maintenant faut
essayer de comprendre... quand on est stupide comme moi...
$ vim stan.c bits.c pattern.c stats.c
[...]