Developing fast machine learning techniques with applications to steganalysis problems
Loading...
URL
Journal Title
Journal ISSN
Volume Title
School of Science |
Doctoral thesis (article-based)
| Defence date: 2010-11-02
Checking the digitized thesis and permission for publishing
Instructions for the author
Instructions for the author
Unless otherwise stated, all rights belong to the author. You may download, display and print this publication for Your own personal use. Commercial use is prohibited.
Authors
Date
2010
Major/Subject
Mcode
Degree programme
Language
en
Pages
134
Series
TKK Dissertations in Information and Computer Science, 20
Abstract
In the history of human communication, the concept and need for secrecy between the parties has always been present. One way of achieving it is to modify the message so that it is readable only by the receiver, as in cryptography for example. Hiding the message in an innocuous medium is another, called steganography. And the counterpart to steganography, that is, discovering whether a message is hidden in a specific medium, is called steganalysis. Other concerns also fall within the broad scope of the term steganalysis, such as estimating the message length for example (which is quantitative steganalysis). In this dissertation, the emphasis is put on classical steganalysis of images first — the mere detection of a modified image — for which a practical benchmark is proposed: the evaluation of a sufficient amount of samples to perform the steganalysis in a statistically significant manner, followed by feature selection for dimensionality reduction and interpretability. The fact that most of the features used in the classical steganalysis task have a physical meaning, regarding the image, lends itself to an introspection and analysis of the selected features for understanding the functioning and weaknesses of steganographic schemes. This approach is computationally demanding, both because of the feature selection and the size of the data in steganalysis problems. To address this issue, a fast and efficient machine learning model is proposed, the Optimally-Pruned Extreme Learning Machine (OP-ELM). It uses random projections in the framework of an Artificial Neural Network (precisely, a Single Layer Feedforward Network) along with a neuron selection strategy, to obtain robustness regarding irrelevant features, and achieves state of the art performances. The OP-ELM is also used in a novel approach at quantitative steganalysis (message length estimation). The re-embedding concept is proposed, which embeds a new known message in a suspicious image. By repeating this operation multiple times for varying sizes of the newly embedded message, it is possible to estimate the original message size used by the sender, along with a confidence interval on this value. An intrinsic property of the image, the inner difficulty, is also revealed thanks to the confidence interval width; this gives an important information about the reliability of the estimation on the original message size.Depuis que les Hommes communiquent, le besoin de dissimuler tout ou partie de la communication existe. On peut citer au moins deux formes de dissimulation d’un message au sein d’une communication: Dans le premier cas, le message à envoyer peut lui même être modifié, de telle sorte que seul le destinataire puisse le décoder. La cryptographie s’emploie par exemple à cette tâche. Une autre forme est celle de la stéganographie, qui vise à dissimuler le message au sein d’un document. Et de même que pour la cryptographie dont le pendant est la cryptanalyse visant à décrypter le message, la stéganalyse est à l’opposé de la stéganographie et se charge de détecter l’existence d’un message. Le terme de stéganalyse peut également désigner l’importante classe de problèmes liés à la détection de l’existence du message mais aussi à l’estimation de sa taille (stéganalyse quantitative) ou encore de son contenu. Dans cette thèse, l’accent est tout d’abord mis sur le problème classique de stéganalyse (détection de la présence du message). Une méthodologie permettant d’obtenir des résultats statistiquement fiables dans ce context est proposée. Il sagit tout d’abord d’estimer le nombre d’échantillons (ici des images) suffisant à l’obtention de résultats pertinents, puis de réduire la dimensionalité du problème par une approche basée sur la sélection de variables. Dans le contexte de la stéganalyse, la plupart des variables obtenues peuvent être interprétées physiquement, ce qui permet une interprétation de la sélection de variables obtenue: les variables sélectionnées en premier réagissent vraisemblablement de façon importante aux changements causés par la présence du message. Leur analyse peut permettre de comprendre le fonctionnement et les faiblesses de l’algorithme de stéganographie utilisé, par exemple. Cette méthodologie peut s’avérer complexe en termes de calculs et donc nécessiter des temps d’éxecution importants. Pour pallier à ce problème, un nouveau modèle pour le “Machine Learning” est proposé, l’OP-ELM. L’OPELM est constitué d’un Réseau de Neurones au sein duquel des projections aléatoires sont utilisées. Les neurones sont ensuite classés par pertinence vis à vis du problème, et seuls les plus pertinents sont conservés. Cette structure de modèle parvient à obtenir des performances similaires à celles de l’état de l’art dans le domaine du “Machine Learning”. Enfin, le modèle OP-ELM est utilisé dans le cadre de la stéganalyse quantitative, cette fois (l’estimation de la taille du message). Une approche nouvelle sur ce problème est utilisée, faisant appel à une technique de ré-insertion d’un message au sein d’une image considérée comme suspecte. En repentant ce processus de ré-insertion un certain nombre de fois, et pour des messages connus de tailles différentes, il est possible d’estimer la taille du message original utilisé par l’expéditeur. De plus, par l’utilisation de la largeur de l’intervalle de confiance obtenu sur la taille du message original, une mesure de la difficulté intrinsèque à l’image est présentée. Ceci permet d’estimer la fiabilité de la prédiction obtenue pour la taille du message original.Description
Supervising professor
Simula, OlliThesis advisor
Lendasse, AmauryBas, Patrick
Keywords
machine learning, steganography, steganalysis, extreme learning machine, artificial neural networks, feature selection, re-embedding, Stéganographie, Stéganalyse, Réseaux de Neurones, Sélection de caractéristiques, Ré-insertion
Other note
Parts
- [Publication 1]: Yoan Miche, Antti Sorjamaa, Patrick Bas, Olli Simula, Christian Jutten, and Amaury Lendasse. 2010. OP-ELM: Optimally Pruned Extreme Learning Machine. IEEE Transactions on Neural Networks, volume 21, number 1, pages 158-162. © 2009 Institute of Electrical and Electronics Engineers (IEEE). By permission.
- [Publication 2]: Yoan Miche and Amaury Lendasse. 2009. A faster model selection criterion for OP-ELM and OP-KNN: Hannan-Quinn criterion. In: Michel Verleysen (editor). Proceedings of the 17th European Symposium on Artificial Neural Networks: Advances in Computational Intelligence and Learning (ESANN 2009). Bruges, Belgium. 22-24 April 2009. Evere, Belgium. d-side publications. Pages 177-182. ISBN 2-930307-09-9. © 2009 d-side publications. By permission.
- [Publication 3]: Yoan Miche, Benoit Roue, Amaury Lendasse, and Patrick Bas. 2006. A feature selection methodology for steganalysis. In: Bilge Gunsel, Anil K. Jain, A. Murat Tekalp, and Bülent Sankur (editors). Proceedings of the International Workshop on Multimedia Content Representation, Classification and Security (MRCS 2006). Istanbul, Turkey. 11-13 September 2006. Berlin, Heidelberg, Germany. Springer. Lecture Notes in Computer Science, volume 4105, pages 49-56. ISBN 3-540-39392-7.
- [Publication 4]: Yoan Miche, Patrick Bas, Amaury Lendasse, Christian Jutten, and Olli Simula. 2007. Advantages of using feature selection techniques on steganalysis schemes. In: Francisco Sandoval, Alberto Prieto, Joan Cabestany, and Manuel Graña (editors). Computational and Ambient Intelligence. Proceedings of the 9th International Work-Conference on Artificial Neural Networks (IWANN 2007). San Sebastián, Spain. 20-22 June 2007. Berlin, Heidelberg, Germany. Springer. Lecture Notes in Computer Science, volume 4507, pages 606-613. ISBN 978-3-540-73006-4.
- [Publication 5]: Yoan Miche, Patrick Bas, Amaury Lendasse, Christian Jutten, and Olli Simula. 2009. Reliable steganalysis using a minimum set of samples and features. EURASIP Journal on Information Security, volume 2009, article ID 901381, 13 pages. © 2009 by authors.
- [Publication 6]: Yoan Miche, Patrick Bas, and Amaury Lendasse. 2010. Using multiple re-embeddings for quantitative steganalysis and image reliability estimation. Espoo, Finland: Aalto University School of Science and Technology. 22 pages. TKK Reports in Information and Computer Science, Report TKK-ICS-R34. ISBN 978-952-60-3249-8. ISSN 1797-5034. © 2010 by authors.