Fatal billard et océrisation

Le généathème de ce mois-ci nous invite à raconter une de nos trouvailles grâce à l’océrisation. Évidemment, la première chose qui vient à l’esprit est la recherche sur un nom de famille dans la presse ancienne, notamment dans Gallica.

J’en ai pas mal dans ma besace, depuis la naturalisation de mes ancêtres anglo-suisses jusqu’aux distinctions militaires reçues par mes poilus de la grande guerre, en passant par les livrets de caisse d’épargne perdus pour certains de mes négligents. C’est même la recherche plein texte dans Gallica qui m’a permis de réparer une injustice et de faire attribuer la mention Mort pour la France à mon grand-oncle Alphonse.

Mais je vais profiter de ce généathème pour mettre en avant un exemple plus anecdotique, qui montre que l’océrisation peut aussi permettre de retrouver une personne sans même utiliser son nom de famille.

C’est une méthode qui est particulièrement efficace dans la recherche de faits divers, où la presse est souvent peu regardante sur la vérification de ses informations. Et quand une erreur dans la graphie des noms est commise dans un journal, elle est vite reprise par tous les autres. C’est comme ça aujourd’hui… c’était déjà comme ça hier !

Au demeurant, beaucoup de faits divers peuvent passer sous notre radar tout simplement parce que le nom des protagonistes n’y est pas systématiquement reporté. Et pourtant, c’est encore l’océrisation qui va nous aider à les détecter.

Vous avez dit océrisation ?

Lorsqu’on numérise un document physique, le scanner va en quelque sorte agir comme un appareil photo et restituer une simple image du texte qu’on lui soumet. Cette image n’est composée que de points juxtaposés, comme dans ces anciennes mosaïques romaines découvertes dans une villa chypriote : c’est le cerveau humain qui extrapole et identifie ici un poisson ou là des lettres qui forment des mots intelligibles.

De la même manière, une numérisation de base ne renvoie donc que ces points posés les uns à côté des autres –les fameux pixels- de différentes couleurs ou de différents niveaux de gris variant du blanc au noir, l’ensemble n’ayant d’autre sens que celui que va lui ajouter, en l’interprétant, l’intelligence humaine.

On n’en est donc pas au stade où l’on va pouvoir faire une recherche par mot-clé, puisque l’ordinateur ne reconnait pas encore de texte. Il y a deux méthodes pour y parvenir. La première est l’indexation qui nécessite justement l’intervention humaine : une personne lit l’image, y reconnait le texte et le saisit pour qu’il puisse enfin être exploré comme tel. Cela demande évidemment du temps et des moyens, ou au minimum des bonnes volontés. Peut-être avez-vous déjà contribué aux défis d’indexation pilotés par Geneatech ?

La seconde méthode est donc l’océrisation, un programme qui s’ajoute à la numérisation en mettant en œuvre la reconnaissance optique des caractères (optical character recognition en anglais, d’où le sigle OCR qu’on rencontre aussi souvent). Grâce à cette couche supplémentaire, la numérisation ne renvoie pas uniquement une image composée de points, mais également son interprétation sous forme d’un fichier texte.

L’océrisation est évidemment particulièrement efficace sur le texte imprimé. Mais différentes recherches sont en cours pour mettre à profit l’intelligence artificielle afin de décrypter également des chaînes de caractères dans des textes anciens manuscrits.

Dans Gallica, tout est-il océrisé ?

Beaucoup de ressources sont balayées par la recherche plein texte mais pas encore tout. Vous pouvez ne pas trouver un de vos ancêtres dans la presse ancienne alors qu’il y est malgré tout. Si vous soupçonnez qu’il peut se trouver dans une publication non océrisée, il faudra en revenir à la bonne vieille méthode : un café… et de la patience pour lire le journal page après page.

Dans Gallica, il est facile de savoir si une publication est océrisée : dans la barre du haut, on trouve sur la droite un petit fanion contenant la lettre T et dans les outils disponibles sur la droite, la loupe de la recherche… ce qui n’est évidemment pas le cas si la recherche plein texte n’est pas disponible, au moins dans la table des matières. L’indication du mode texte figure également dans le volet de gauche contenant toutes les informations complémentaires sur la publication.

Océrisation

Encore pouvez-vous rater des occurrences du mot recherché même dans une publication océrisée, car c’est un traitement automatique qui par principe n’est pas fiable à 100 %. Même si le taux de reconnaissance des caractères reste généralement élevé, il dépend de la qualité de la publication, par exemple des éventuelles bavures dans l’impression, du redressement plus ou moins performant des pages, du contraste, de la police utilisée pour composer le texte, de la présence ou non de colonnes, des renvois en bout de ligne, de l’orthographe ancienne ou récente, etc.

Gallica annonce le taux de reconnaissance théorique pour le document dans lequel vous vous trouvez : cette information figure en bas dans le volet de gauche quand vous dépliez la rubrique Version texte (OCR). Pensez aussi, si vous avez besoin de récupérer une assez grande portion de texte, que vous pouvez le faire en le sélectionnant également dans ce volet. Vous n’avez plus ensuite qu’à le coller dans votre article de blog, par exemple, en ayant seulement à corriger les éventuelles erreurs à l’océrisation.

Enfin il est souvent productif de revenir sur d’anciennes recherches car si la reconnaissance de caractère se fait le plus souvent lors de la numérisation initiale, elle peut aussi être appliquée a posteriori à des numérisations qui n’avaient été réalisées à l’origine qu’en mode image. De plus, des corrections humaines sont apportées à l’océrisation brute afin de monter la qualité de la reconnaissance à des taux cibles de plus de 95 % pour certaines publications. Dans ce domaine aussi, l’amélioration est donc constante et peut permettre de trouver aujourd’hui ce qui nous avait échappé hier.

Mort sur le billard

J’ai bien du souci pour trouver mes ancêtres Harrisson, dont le patronyme est souvent écorché… voire très écorché, comme nous allons le constater.

Je dégotte un jour l’acte de décès d’un collatéral qui m’interpelle car il est décédé boulevard du Temple 10, et transporté à son domicile rue Oberkampf 49. Certes il n’y avait pas tout Paris à traverser mais je me dis qu’on n’a quand même pas charrié un mort sur cinq cents mètres sans qu’il n’en reste une trace quelque part. Cependant l’acte de décès ne pouvait m’en apprendre davantage puisque les officiers d’état civil ont interdiction d’évoquer les circonstances de la mort.

Acte de décès de Philippe Harrisson à Paris le 14 juillet 1921 – Archives de Paris 11D 288

Seulement chercher un Harrisson / Harrison / Harisson / Harison me décourage d’avance, d’autant que c’est le nom de plusieurs personnalités anglo-saxonnes à la même époque. Comme j’ai la chance d’avoir d’autres renseignements et une période très ciblée, je vais aborder la recherche différemment, en me concentrant sur les faits divers survenus boulevard du Temple, le 14 juillet 1921.

Je recherche donc « boulevard du temple » que je place entre guillemets pour ne remonter que l’expression exacte (1) dans la totalité du texte (2). Attention, dans cette zone, à ne pas rester sur le choix par défaut Auteur, c’est souvent la raison de l’absence de résultat. Enfin, en ce qui me concerne, c’est une étourderie dont je suis coutumière ;-))

Ensuite je restreins la recherche à la presse (3). L’intérêt de choisir Presse et revues dans le type de document est que la zone des dates (4) va immédiatement s’ajuster pour me permettre de faire une recherche très fine au jour près. Dans mon cas, je cible le lendemain de la mort et je me limite à trois jours, ce qui me semble raisonnable pour ce qui doit n’être qu’un simple fait divers.

Les résultats qui sont renvoyés sont très exploitables puisqu’ils sont limités à neuf publications. Ils sont un peu parasités par quelques salles de spectacle situées boulevard du Temple, comme le cinéma le Majestic ou le théâtre Dejazet, mais il est facile de les éliminer à première lecture.

Dès la seconde publication, je tiens quelque chose… et surtout je me rends compte à quel point il était intéressant de ne pas faire la recherche sur le patronyme. Parce que compresser l’initiale du prénom avec le nom de famille en Parisson, on ne me l’avait jamais fait… et c’est certain que je n’aurais pas eu l’idée de lancer une recherche sur le nom ainsi malmené !

Bien sûr, tous les journalistes ont recopié sottement sur le premier qui avait fait l’erreur, ou est-ce le même pigiste qui a fourni son texte un peu remanié à plusieurs journaux ? En tout cas, je n’ai finalement trouvé que Le Petit Journal pour orthographier correctement mon pauvre Harrisson. Sans compter ceux qui se contentent d’évoquer un inconnu mais que ma méthode remonte tout de même.

Bref, grâce à cette recherche abordée un peu en crabe, mais qui doit cependant tout à la reconnaissance de caractères, j’ai pu glaner à droite à gauche des détails qui m’ont permis d’éclairer les circonstances de cette mort a priori mystérieuse. Mon cousin Philippe s’est pris un coup de chaud en jouant au billard, dans un débit de boisson du boulevard du Temple. Il n’était pas le seul puisque d’autres accidents malheureux sont survenus le même jour, qu’on impute à une canicule exceptionnelle.

Munie de ces premières précisions, je me suis dit que la police avait probablement trempé dans l’affaire car je n’imaginais pas les témoins prendre sous leur bonnet la balade du corps dans les rues de Paris. Bonne pioche ! Les archives de la Préfecture de Police de Paris conservent effectivement une main courante qui m’a permis d’en apprendre encore un peu plus, et même de savoir avec qui Philippe jouait ce jour-là.

Merci qui ? Merci Gallica, merci l’océrisation ! Et merci Roselyne pour l’archive du Pré Saint-Gervais ;-))


{En complément, je vous signale que sur ma chaîne Twitch, j’ai toujours quatre vidéos en ligne consacrées à la recherche dans Gallica. C’est sur cette page, descendre à la rubrique Recherches généalogiques dans Gallica}

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

16 commentaires sur “Fatal billard et océrisation”