symac

Préparer une localisation automatique dans le sudoc

Dans le cadre d'un projet de localisation automatique dans le sudoc quelques notes sur la préparation des fichiers.

Avoir des fichiers de moins de 1000 lignes

L'ABES demande ("3.1. Fichiers d'ISBN pour les tests de recouvrement") que les fichiers utilisés pour le test de recouvrement ne contiennent pas plus de 1000 isbn. La commande suivante sous linux, permet de partir d'un fichier isbn_all.txt et de le séparer en autant de fichiers que nécessaire, contenant chacun 990 lignes et nommés : isbn_subfile_01.txt, isbn_subfile_02.txt, isbn_subfile_03.txt ...

split --additional-suffix=.txt -d -l 990 isbn_all.txt isbn_subfile_