¨ Dépannage Maintenance Informatique | ![]() |
Articles-Info | ![]() |
Neo4j et Linkurious |

Panama Papers et Big Data : déduplication et OCR, des techniques numériques performantes pour traiter une énorme masse de données. Nuix et Neo Technology à la rescousse ; les dessous d’une entreprise de recherche numérique de grande ampleur.
Tweeter |

Indexer et analyser 2,6 To de données non structurées relève de l’exploit dans les délais imparti et les conditions d’exploitation. C'est uniquement avec des outils de classe mondiale comme Neo4j et Linkurious qu'il est désormais possible de mener à bien une investigation internationale aussi vaste sur des données complexes.
Panama Papers : révélateur d’une mondialisation économique et des dérives de la financiarisation du monde, défi d’une investigation journalistique qui parvient à maîtriser des données de masse (les « big data »), manifestation de la capacité des journalistes et des médias à coordonner leurs efforts pour organiser un réseau d’investigation mondialisé à une énorme échelle.
Le Consortium d’investigation à la base
L’International Consortium of Investigative Journalism (ICIJ) a été créé dès 1997 par le journaliste américain Chuck Lewis. Il était un des projets développés au sein du Center for Public Integrity.
Ce centre a la particularité de mettre en réseau des individus venant de divers horizons, avec des profils complémentaires, au service de l’élucidation de faits ou de données.
On va retrouver ainsi sur une même enquête, des personnalités engagées, des développeurs informatiques, des journalistes, des hackers, des infographistes ou des data journalistes travaillant en réseau …
Les Panama Papers sont donc le fruit de 8 mois d'enquête, et de la plus grande fuite de données de l'histoire à ce jour : 2,6 To de données ont dû être indexées et analysées.
L'accès aux données serait le fruit d'un piratage informatique.
A titre de comparaison, le volume des Offshore leaks révélés en 2013 étaient de 260 Go.
Depuis la fin de la semaine dernière un grand nombre de noms et d'informations ont déjà été révélés mais la liste complète des entreprises et des personnes qui sont recensées dans les données seront publiées début mai selon l'ICIJ.
ð Question : 11,5 millions de fichiers ne se passent pas au crible de manière aussi simple :
Comment ont donc été déjà analysé les données et dans un temps relativement restreint ?
Les 2,6 To de données des Panama Papers contiennent les transactions enregistrées pendant 40 ans par l'entreprise Mossack Fonseca à propos de 210 000 sociétés.
Un vrai défi pour un projet de Big Data. !
Les enquêteurs du Süddeutsche Zeitung et de l'ICIJ ont utilisé un programme appelé Nuix.
ð Nuix se définit comme une plate-forme d'investigation construite pour le Big Data.
Nuix est un logiciel d’investigation complet et rapide issu du monde de l’eDiscovery. Il donne aux analystes enquêteurs en charge d’investigations numériques la possibilité de rechercher et d’identifier des comportements suspects, de lister les personnes impliquées quel que soit le volume d’information à traiter.
La technologie mise au point par Nuix permet aux personnes impactées par ces problématiques de trier, traiter et d’analyser de grandes quantités de données afin d’en ressortir les informations pertinentes.
A cet effet Nuix s’appuie sur un algorithme intelligent permettant d’identifier automatiquement le type des données en les mettant en relation afin d’obtenir un réseau d’informations croisées.
Cet outil a ainsi permis de traiter les données en un temps record.
«Le travail d'exploitation des données a commencé en Septembre » a indiqué le consultant logiciel de Nuix, Carl Barron, qui a travaillé avec l'ICIJ et le Süddeutsche Zeitung pour mener l'enquête.
Nuix avait commencé à travailler avec l'ICIJ à l'époque des « Offshore leaks ». Pour les Panama Papers, le volume d'informations était bien plus important.
Mais l'indexation aurait duré seulement un jour et demi, selon Carl Barron.
La taille des données à analyser a été réduite grâce à la déduplication (1).
« La déduplication est utilisé pour identifier le même document qui aurait pu être sauvegardé un certain nombre de fois sur le système » a expliqué Carl Barron.
De cette manière, les enquêteurs n'ont pas eu à consulter les mêmes données plus d'une fois.
Mais une fois la première phase d'indexation effectuée, l'équipe a pu alors passer à l'identification d'éléments qui n'avaient pas été indexés du fait de leur nature.
Ce sont alors les outils d'OCR (Optical Character Recognition pour reconnaissance optique de caractères)(2) qui ont pris le relais pour analyser les très nombreux fichiers tels que les PDF, les scans et les images.
Cela a permis de transposer les données jusqu'alors illisibles dans des formats de fichier lisibles par les outils de recherche.
Classeret extraire des informations en fonction du type de fichier
Nuix a ensuite été utilisé pour classer et extraire des informations en fonction du type de fichier, si les fichiers contenaient le nom d'une personne ou un numéro de carte de crédit.
Nuix insiste aussi sur le fait que le traitement des Panama Papers n'a pas été en soi quelque chose d'extraordinaire. « Nous avons des clients qui traitent 300 To de données sur un mois » souligne Carl Barron.
Carl Barron explique que désormais toutes les informations indexées sont disponibles sur la plate-forme de Nuix, de sorte que les enquêteurs peuvent effectuer sans problème des allers-retours pour compléter leurs articles si nécessaire.
Ainsi, si une enquête met en lumière le rôle d'un individu en particulier, les enquêteurs peuvent commencer à connecter les données depuis la base de données initiale via Nuix.
Théorie des graphes et visualisation
Par ailleurs l'ICIJ a utilisé la technologie de base de données de graphes Neo4j a indiqué la société Neo Technology (3) dans un communiqué.
« Au lieu d'utiliser des « tables » comme le font les bases de données relationnelles, les bases de données comme Neo4j s'appuient sur la théorie des graphes et fonctionnent avec des structures spéciales comprenant des nœuds, des relations et des propriétés permettant de définir, d'identifier et de stocker les données » indique Neo Technology (3).
Selon le PDG de Neo Technology, « Quoi que les « Panama Papers » dévoilent, une chose est sûre : c'est uniquement avec des outils de classe mondiale comme Neo4j et Linkurious qu'il est possible de permettre une investigation internationale aussi vaste sur des données aussi complexes, comme cela seproduit désormais dans notre ère de l'Information ».
----------
(1) En informatique, la déduplication (également appelée factorisation ou stockage d'instance unique) est une technique de stockage de données, consistant à factoriser des séquences de données identiques afin d'économiser l'espace utilisé.
Chaque fichier est découpé en une multitude de tronçons. À chacun de ces tronçons est associé un identifiant unique, ces identifiants étant stockés dans un index. L'objectif de la déduplication est de ne stocker qu'une seule fois un même tronçon. Aussi, une nouvelle occurrence d'un tronçon déjà présent n'est pas à nouveau sauvegardée, mais remplacée par un pointeur vers l'identifiant correspondant.
(2) La reconnaissance optique de caractères (ROC, en anglais optical character recognition : OCR), encore appelée vidéocodage (traitement postal, chèque bancaire), désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.
Un ordinateur réclame pour l'exécution de cette tâche un logiciel d'OCR. Celui-ci permet de récupérer le texte dans l'image d'un texte imprimé et de le sauvegarder dans un fichier pouvant être exploité dans un traitement de texte pour enrichissement, et stocké dans une base de données ou sur un autre support exploitable par un système informatique.
Par exemple, si l’on veut numériser un article de journal ou un contrat sur papier, deux solutions se présentent: l’on peut passer un temps énorme à le ressaisir; soit l’on transforme ces documents en format numérique en une fraction de secondes en utilisant un scanner (ou un appareil photo numérique) et la technologie OCR (ROC) de reconnaissance optique de caractères.
(3) Neo Technology, créateur de Neo4j, leader mondial des bases de données de graphes, a annoncé que le Consortium International de Journalistes d'Investigation (ICIJ) a utilisé sa technologie afin de faire toute la lumière sur « Panama Papers L’un des scoops révélés par l'ICIJ, n'est autre que Neo4j.
C'est en fait cette technologie de base de données de graphes, utilisée avec la plateforme de visualisation Linkurious, qui a été utilisée pour organiser et permettre l'accès à ces données étroitement connectées.
Les bases de données de graphes excellent de deux manières:
- D'abord par leur capacité à gérer des données hautement connectées,
- puis en permettant de répondre à des requêtes très complexes.
Au lieu d'utiliser des « tables » comme le font les bases de données relationnelles, les bases de données comme Neo4j s'appuient sur la théorie des graphes et fonctionnent avec des structures spéciales comprenant des nœuds, des relations et des propriétés permettant de définir, d'identifier et de stocker les données.
C'est ce qui assure à ces outils de hautes performances en termes d'analyse des relations et d'interconnexion entre les données et qui a simplifié la tâche des journalistes.

Comme il l'explique dans un post de blog, Facebook utilise son IA pour développer l'accessibilité aux malvoyants. - News - publié le 05/04/2016
Facebook présente un nouvel outil destiné à agrémenter la vie des utilisateurs malvoyants qui souhaitent visiter son site. « Automatic alternative text » permet à une IA d'analyser l'image automatiquement et de proposer une description à l'utilisateur. |
AI : L’agence de pub’ McCann recrute son premier robot comme Directeur de la Création: Le premier directeur artistique robotique de l’histoire. - News - publié le 05/04/2016
AI-CD β (soit : Artificial Intelligence -Creative Director Beta) est le premier né du laboratoire de recherche de l’agence de publicité, le Millenials TaskForce (1). Issue du projet «Creative Genome », cette « AI » renforcera, dès le 1er avril, l’équipe de création aux côtés de onze autres collaborateurs « humains » diplômés. |