Revendication de l’incendie d’une voiture de Groupama à Lille envoyé le 04/03/23 - Locales - 1 complément
FEVRIER 2023 A CALAIS envoyé le 02/03/23 - Locales
Le CCL a un nouveau local envoyé le 08/02/23 - Locales

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 13

COMMUNIQUE des parents de SERGE envoyé le 29/03/23 - Non Locales
CSRC Bulletin #1 envoyé le 24/03/23 - Non Locales
Maintenant, le sabotage ! envoyé le 21/03/23 - Non Locales
Communiqué #2 du SISME : "100 000€, le prix de la liberté" envoyé le 19/03/23 - Non Locales - 1 complément

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 20

Aux origines des doctrines raciales en France envoyé le 24/03/23 - Analyses - 1 complément
En grève jusqu’à la retraite envoyé le 23/03/23 - Analyses
La prison pour personne ni pour les terfs envoyé le 11/03/23 - Analyses - 2 compléments

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 20

Se protéger des armes de police : quelques bases de survie envoyé le 23/03/23 - Articles d’ailleurs
Loi LOPMI un cran de plus dans l’engrenage répressif envoyé le 18/03/23 - Articles d’ailleurs
Téléphonie mobile et activisme envoyé le 28/02/23 - Articles d’ailleurs
La lutte continue ! Samedi 4 mars Manifestation à Turin envoyé le 28/02/23 - Articles d’ailleurs
Mémoire du groupe des étrangers envoyé le 27/02/23 - Articles d’ailleurs
D’un certain anarchisme et de la gauche québécoise envoyé le 31/01/23 - Articles d’ailleurs

1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | ... | 30

Qui a écrit ça ? (aperçu des méthodes modernes pour déterminer les auteur·ice·s d’un texte)
envoyé le 03/03/23 par Zündlumpen #76 Mots-clés  répression judiciaire   répression policière  

Un bref aperçu des méthodes modernes de la criminalistique linguistique pour déterminer les auteur·ice·s d’un texte. Le texte d’origine est paru dans la revue allemande "Zündlumpen #76", cette traduction a été publiée sur le site du Centre de documentation sur la contre-surveillance.

L’article suivant tente de donner un aperçu d’un point de vue non technique. Il existe quelques publications académiques sur ce sujet qui pourraient être examinées pour une meilleure analyse. Cependant, mon objectif principal ici est de soulever la question, et non de fournir un point de vue solide et concluant. Si vous en savez plus, publiez !

La plupart des gens qui commettent occasionnellement des délits et ont des démêlés avec la justice s’intéressent sans doute à la possibilité d’éviter de laisser des traces qui pourraient leur coûter cher à l’avenir, peut-être même après des années ou des décennies. Ne pas laisser d’empreintes digitales, de traces ADN, d’empreintes de chaussures ou de traces de fibres textiles ou au moins se débarrasser des vêtements après coup, éviter les caméras de surveillance, faire attention aux traces d’outils, éviter les enregistrements de toute sorte, détecter la surveillance, etc. - tout ça devrait être une préoccupation pour toute personne qui commet des délits de temps en temps et qui ne veut pas être identifiée. Mais qu’en est-il de ces traces qui n’apparaissent souvent qu’après la commission d’un délit, dans le désir d’expliquer son acte de manière anonyme ou même en utilisant un pseudonyme récurrent ? Lors de la rédaction et de la publication d’un communiqué ?

J’ai l’impression que souvent, aucune attention particulière n’est accordée à ces traces malgré un développement technologique rapide des capacités d’analyse. Ça peut être délibéré, être une négligence, ou être un compromis entre des besoins divergents. Sans vouloir faire ici une suggestion générale sur la manière de traiter ces traces - après tout, chacun·e fera ce qu’iel lui semble le mieux - je voudrais présenter les méthodes avec lesquelles les autorités enquêtrices en Allemagne et ailleurs travaillent actuellement (probablement), ce qui semble possible en théorie et ce qui pourrait devenir possible à l’avenir.

Je devrais peut-être préciser à l’avance que tout ou du moins la plupart de ce que je présente ici est scientifiquement et juridiquement controversé. Et je m’intéresse moins à la validité juridique des analyses linguistiques - ou à leur validité scientifique - qu’au fait de savoir s’il semble plausible que ces recherches puissent contribuer à une opération de surveillance, car même si une piste n’est pas utile en soi devant un tribunal, elle peut toujours mener à d’autres pistes utiles.

Identification d’auteur·ice·s au BKA [Office fédéral de la police criminelle d’Allemagne].

Selon ses propres dires, l’Office fédéral de la police criminelle (BKA) dispose d’un département consacré à l’identification des auteur·ice·s de textes. L’accent est mis sur les textes liés à des actes criminels, comme les communiqués de revendication, mais aussi sur les "prises de position" des "milieux extrémistes de gauche", entre autres. Tous les textes collectés sont traités par des analyses linguistiques dans un "recueil de communiqués" et peuvent être comparés et parcourus avec le système d’information criminelle sur les textes (KISTE). Selon le BKA, les textes sont classés en fonction des caractéristiques biographiques suivantes de leurs auteur·ice·s (présumé·e·s) : origine, âge, formation et profession.

Tous les nouveaux textes sont également comparés aux textes précédemment enregistrés pour déterminer si plusieurs textes peuvent avoir été écrits par la même personne.

Dans le cadre d’enquêtes spécifiques, les textes enregistrés peuvent aussi être comparés à des textes dont l’auteur·ice est connu·e, afin de déterminer s’ils ont été écrits par la même personne ou si ça peut être exclu.

Il s’agit des informations officielles du BKA concernant ce département. Qu’est-ce que ça veut dire en pratique ?

Je pense qu’on peut supposer qu’au moins tous les communiqués de revendication sont enregistrés dans cette base de données et analysés pour voir s’il existe d’autres communiqués de revendication par le(s) même(s) auteur·ice(·s). Le fait qu’ils enregistrent également les "prises de position" permet de tirer d’autres conclusions : ça semble au moins possible qu’en plus des textes ayant une pertinence pénale, ils stockent aussi d’autres textes qui sont censés provenir d’un milieu particulier. Par exemple, des textes provenant de journaux, des déclarations de groupes/organisations politiques, des appels, des articles de blog, etc. Dans le pire des cas, je suppose que tous les textes publiés sur des sites Internet d’"extrémistes de gauche" (après tout, il est assez facile de les dénicher), ainsi que les textes de publications papier qui semblent intéressants pour les autorités enquêtrices, seraient ajoutés à cette base de données.

Ça veut dire que pour chaque communiqué de revendication, le BKA disposerait d’un ensemble de textes dont il présume qu’ils ont le même auteur·ice. Il peut s’agir d’autres revendications ou d’autres textes qui ont été ajoutés à la base de données. Outre le cas des délits commis en série, ça peut donner d’autres indices sur les coupables, comme des pseudonymes, des noms de groupe - ou, dans le pire des cas, des noms - sous lesquels l’auteur·ice d’une revendication peut avoir écrit d’autres textes, mais aussi, selon le texte, toutes sortes d’autres informations, dont souvent des indices sur le lieu de résidence et d’activité d’une personne, ses thèmes de prédilection, ses caractéristiques biographiques, son parcours éducatif, etc. Toutes ces informations peuvent au moins servir à réduire le cercle des suspects.

Ce qui n’est pas clair dans tout ça, ce sont les autres échantillons de comparaison que le BKA pourrait obtenir. Pour la plupart des gens, il existe certainement toute une série de textes auxquels les autorités enquêtrices ont (pourraient) avoir accès et qui pourraient être ajoutés à la base de données en cas de suspicion ou même à titre de précaution - si une personne est fichée avec une mention telle que "extrémiste de gauche violent", etc. Il peut s’agir de n’importe quel document portant votre nom, qu’il s’agisse d’une lettre adressée à une autorité ou d’une lettre à l’éditeur d’un journal. Je ne citerai ici intentionnellement que les sources les plus évidentes, histoire de ne pas donner par inadvertance une inspiration décisive aux autorités enquêtrices, mais je suis sûr que vous pouvez déterminer vous-même lesquels de vos textes pourraient être accessibles. Si les enquêteurs du BKA parviennent à réduire le cercle des suspects à une caractéristique spécifique, ça permet la comparaison avec des masses d’échantillons de textes disponibles (par exemple, si on suppose qu’un·e scientifique d’une certaine discipline est responsable d’une lettre, toutes les publications de cette discipline pourraient être utilisées comme échantillons de comparaison). Ça serait, par exemple, une explication (partielle) possible de ce qui a pu se passer avec Andrej Holm dans l’affaire contre le militante gruppe (mg), du moins si on suppose que le BKA n’a pas simplement tapé "gentrification" sur Google, donc je pense qu’il est tout à fait possible que de telles analyses soient effectuées.

Méthodes pour détecter des auteur·ice·s et établir des profils

Ceci dit, tout ça ne prend en compte que ce que le BKA prétend être capable de faire et pousse ces considérations jusqu’à certaines conclusions logiques. Mais comment fonctionne réellement la reconnaissance des auteur·ice·s ou l’établissement de profils ?

Qui n’a jamais eu peur que le prof d’allemand ne vous dénonce après qu’un poème moqueur sur un enseignant soit apparu dans les toilettes et que toute l’école se moque du fait que vous seul·e auriez pu écrire "aspirateur" [Leerer] au lieu de "professeur" [Lehrer]. Heureusement, toute la fac d’allemand a joué le jeu, adoptant le récit d’une faute d’orthographe et fermant les yeux sur le jeu de mots. La criminalistique linguistique semble exiger un peu de pratique, ou au moins une motivation criminologique, qui sait ? Quoi qu’il en soit, l’analyse d’erreurs, dont la plupart ont probablement entendu parler, était l’un des principaux outils d’analyse du BKA vers 2002, avec l’analyse de style, selon un article promotionnel de Christa Baldauf, flic spécialiste du langage. Les fautes d’orthographe, les erreurs grammaticales, la ponctuation, mais aussi les fautes de frappe, l’orthographe nouvelle ou ancienne, les indications sur les particularités du clavier, etc., tout ça sert aux flics du langage à collecter des indices sur l’auteur·ice. Par exemple, si j’écris "muß" au lieu de "muss", ça peut être un indice que j’ai manqué certaines des réformes orthographiques les plus récentes quand j’étais à l’école. Si, en revanche, j’écris constamment des termes qui, selon les règles d’orthographe, utilisent "ß" et non "ss", ça pourrait signifier qu’il n’y a pas de "ß" sur mon clavier. Par exemple, si je parle de "dem Butter" [au lieu de "die Butter"], ça pourrait être une référence au fait que j’ai grandi en Bavière, etc. Mais peut-être aussi que je simule toutes ces choses dans le seul but d’induire en erreur les flics du langage. La plausibilité de mon profil d’erreur fait également partie d’une telle analyse. De même, l’analyse stylistique examine les particularités de mon style d’écriture. Quel type de termes j’utilise, ma structure de phrase présente-t-elle des schémas spécifiques, y a-t-il des termes particuliers qui se répètent d’un texte à l’autre, etc. Je pense que toute personne qui examine de plus près ses textes reconnaîtra certaines caractéristiques stylistiques qui lui sont propres.

De telles analyses qualitatives servent avant tout à établir le profil des auteur·ice·s. Il est certes possible de faire correspondre différents textes de cette manière, mais la véritable valeur de ces analyses réside dans la possibilité de déterminer des éléments tels que l’âge, le "niveau d’éducation", l’"appartenance à un milieu", les origines régionales, et parfois même des indications sur la profession/formation, etc. On entend aussi parler de tentatives pour déterminer des éléments comme le genre, mais ça semble généralement moins évident.

En revanche, il existe également des analyses plus quantitatives et statistiques qui examinent tout ce qui peut être mesuré de cette manière, de la fréquence des mots aux termes particuliers utilisés en passant par la structure syntaxique des phrases. Ces méthodes, connues sous le nom de stylométrie, sont parfois très controversées car il n’est pas possible de dire exactement ce qu’elles sont censées mesurer, mais elles donnent parfois des résultats étonnants, notamment en combinaison avec des techniques d’apprentissage automatique (machine learning). Je pense que ces approches sont donc surtout susceptibles d’être utilisées pour regrouper différents textes en fonction de leurs similitudes.

L’avantage évident de ces analyses quantitatives est qu’elles peuvent être réalisées en masse. Tous les textes disponibles ou numérisables peuvent être analysés de cette manière, des messages sur les réseaux sociaux aux livres. Bien que le succès de ces méthodes soit actuellement encore relativement modeste, et qu’il s’est souvent avéré que des textes supposés similaires le sont davantage par leur genre que par leur auteur·ice, si on part du principe que les styles d’écriture individuels pourraient correspondre à des modèles quantitatifs, ça signifie qu’une fois ces modèles connus, une attribution massive de textes à certain·e·s auteur·ice·s sera possible.

Et maintenant ?

Il y avait et il y a, bien sûr, diverses approches pour gérer cette situation, aucune n’étant meilleure ou pire qu’une autre. Celleux qui n’écrivent pas de communiqués évitent largement ce problème, mais sont tout de même concerné·e·s s’iels participent à des publications ou écrivent d’autres textes. Cellui qui camoufle des textes avant leur publication, par exemple en faisant réécrire et reformuler successivement des passages par plusieurs personnes, etc., court quand même le risque de développer des caractéristiques linguistiques et stylistiques exploitables ou de ne pas réussir à dissimuler des caractéristiques. Cellui qui pense pouvoir ignorer tout ça parce qu’il n’existe aucun échantillon de texte qui peut lui être attribué ou parce qu’iel est convaincu que la valeur juridique de la reconnaissance d’auteur·ice est trop fragile, risque qu’à l’avenir des échantillons de texte deviennent d’une manière ou d’une autre disponibles (par exemple parce qu’iel est reconnu·e coupable d’avoir écrit un texte) ou que la valeur juridique de la procédure évolue. Celleux qui pensent que la technologie n’est pas (encore) assez bonne peuvent être surpris·es par les développements futurs. Celleux qui utilisent des solutions techniques pour masquer leur qualité d’auteur·ice courent le risque de laisser de nouvelles caractéristiques et traces, et aussi de produire des communiqués mal écrits que personne ne veut lire de toute façon. Celleux qui n’écrivent jamais aucun texte, eh bien, n’écrivent jamais aucun texte.

Donc faites ce qui vous parle le plus, mais faites-le dès maintenant - si ce n’est déjà le cas - en gardant à l’esprit ces traces et cette sensation de malaise dans l’estomac qui, dit-on, a sauvé plus d’une personne d’une erreur d’inattention au moment crucial.


envoyé le 3 mars 2023  par Zündlumpen #76  Alerter le collectif de modération à propos de la publication de cet article. Imprimer l'article
Compléments
  • Aucun compléments d

Avertissement

Les commentaires sont modérés avant d’être visibles et n’apparaissent pas directement après les avoir proposés.

Les objectifs de commentaires sont :
- compléter l’information donnée dans la contribution
- apporter un argument ou contre-argument à la contribution
- apporter une interrogation ou un questionnement par rapport au sujet de la contribution.

Tout commentaire ne répondant pas à un de ces trois objectifs, ou étant contraire aux précédents points de la charte sera supprimé définitivement du site.

Lien vers la politique éditoriale du collectif


Commentaires modérés à priori

Les compléments de cet article sont modéré à priori : votre contribution n'apparaîtra qu'aprè;s avoir été validée par un membre du collectif.

Saisissez votre compléments

Pour créer des paragraphes, laissez simplement des lignes vides.

www.indymedia.org
africa
Ambazonia Canarias estrecho / madiaq Kenya Nigeria South Africa
canada
London, Ontario Maritimes Montreal Ontario Ottawa Quebec Thunder Bay Vancouver Victoria Windsor
east asia
burma Jakarta Japan Korea Manila QC
europe
Abruzzo Alacant Andorra Antwerpen Armenia Athens Austria Barcelona Belarus Belgium belgrade Bristol Brussels Bulgaria Calabria Croatia Cyprus emilia-romagna estrecho / madiaq Euskal Herria Galiza Germany grenoble Hungary Ireland Istanbul Italy La Plana Liege liguria Lille linksunten lombardia London Madrid Malta Marseille Nantes Napoli Netherlands Nice Northern England Norway Nottingham Oost-Vlaanderen Paris/Ãle-de-France Patras Piemonte Poland Portugal Roma Romania Russia Sardegna Scotland Sverige Switzerland Torun Toscana Toulouse Ukraine United Kingdom Valencia
latin america
Argentina Bolivia Chiapas Chile Chile Sur CMI Brasil CMI Sucre Colombia Ecuador Mexico Peru Puerto Rico Qollasuyu Rosario santiago Tijuana Uruguay Valparaiso Venezuela
oceania
Aotearoa Brisbane burma darwin Jakarta Manila Melbourne Perth QC Sydney
south asia
India Mumbai
united states
Arizona Asheville Atlanta Austin Austin Indymedia Baltimore Big Muddy Binghamton Boston Buffalo Charlottesville Chicago Cleveland Colorado Columbus DC Hawaii Houston Hudson Mohawk Kansas City LA Madison Maine Miami Michigan Milwaukee Minneapolis/St. Paul New Hampshire New Jersey New Mexico New Orleans North Carolina North Texas NYC Oklahoma Philadelphia Pittsburgh Portland Richmond Rochester Rogue Valley Saint Louis San Diego San Francisco San Francisco Bay Area Santa Barbara Santa Cruz, CA Sarasota Seattle Tampa Bay Tennessee Urbana-Champaign Vermont Western Mass Worcester
west asia
Armenia Beirut Israel Palestine
process
FBI/Legal Updates Mailing Lists Process & IMC Docs Tech Volunteer
projects
Print Radio Satellite TV Video
regions
United States
topics
Biotech

copyleft Copyleft Indymedia (Independent Média Center). Sauf au cas où un auteur ait formulé un avis contraire, les documents du site sont libres de droits pour la copie, l'impression, l'édition, etc, pour toute publication sur le net ou sur tout autre support, à condition que cette utilisation soit NON COMMERCIALE.

RSS articlesRSS articles |  Site réalisé avec spip 3.2.19 [24473]
Top