Léo
PROJET
Je souhaite créer une base de données collectant un maximum de cartes anciennes, principalement de Bruxelles et de Paris, et classant ces cartes par lieu ainsi que par date. Etant très intéressé par l'urbanisme ainsi que par l'histoire, j'ai une grande curiosité pour ces vieilles cartes, et j'en consulte régulièrement. Je serai peut-être amené à en utiliser dans un projet artistique futur.
SOURCES
- https://www.geographicus.com/
- https://www.oldmapsonline.org/
- https://commons.wikimedia.org/
- https://www.discusmedia.com/
- https://www.mapsofthepast.com/
STRUCTURE
AVANCEMENT DU PREMIER QUADRI
Mon projet a un peu évolué au cours du premier quadri. Je ne cherche plus uniquement des cartes de Paris et de Bruxelles, mais d'un maximum de villes différentes. Mon objectif final est d'avoir suffisamment de matière pour m'initier au machine learning. J'ai une vague première idée, celle d'un générateur automatique de cartes. Je n'ai aucune connaissance en machine learning, alors je verrai ce qu'il en sera à ce moment-là. Pour l'instant, je veux accumuler un maximum de données. L'idée sera alors d'exporter les images de chaque carte, avec un nom "ordonné" : ville-siècle.extension. Par exemple, Bruxelles-17.jpeg. Ensuite, je souhaite classer ces images pour les retrouver plus rapidement, en autant de sous-dossiers que possible. Par exemple, "Europe → Belgique → Flandre → Gand-15.png".
J'ai réussi assez simplement à récupérer les infos qui m'intéressaient sur certains de mes sites sources (geographicus et mapsofthepast). Un problème auquel j'ai été confronté, fut de rendre l'information propre. Par exemple, lorsque je récupérais le titre de la carte, il y avait beaucoup d'infos inutiles. Comment, en partant de "Map of Brussels, from the royal archives", réussir à obtenir "Bruxelles" ?
J'ai dû coder un petit bout de programme qui me permettait, premièrement, de nettoyer la phrase de tous les caractères inutiles comme les virgules, parenthèses, etc.
Ensuite, le programme me permettait d'isoler chaque mot, afin qu'il soit lu séparément. J'utilisais alors la librairie "Geonamescache" pour identifier les noms de villes parmi les mots. Une fois ceux-ci trouvés et les mots inutiles enlevés, j'utilisais la bibliothèque deep_translator pour automatiquement détecter la langue dans laquelle le nom de la ville était écrit, puis pour le traduire en français.
OBJECTIFS DU SECOND QUADRI
Mon premier objectif à court terme sera d'améliorer ce que j'ai déjà fait. J'ai deux problèmes principaux :
1 - Mon code est vraiment dégueulasse, c'est en grande partie pour ça que je ne le poste pas ici. J'apprends peu à peu le python, et me rends compte que je peux faire un code bien plus propre et compréhensible, notamment en utilisant des fonctions au lieu de recopier le même code à chaque fois. Je veux donc reprendre ce que j'ai fait, et le rendre plus compréhensible, car sinon je vais vite me perdre.
2 - En passant par la bibliothèque deep_translator, j'utilise un plugin google trad pour traduire les noms des villes. Problème : j'ai un nombre de requêtes (très) limité. Quand on les dépasse, le programme plante. Impossible de compter là-dessus pour la suite, alors je dois trouver une autre alternative. J'ai besoin de pouvoir détecter la langue automatiquement car il y en a de toutes sortes dans les noms des cartes, et aussi de traduire automatiquement. Je vais réfléchir à une solution dans ces prochaines semaines.
Une fois que j'aurai fait ça, je pourrai me pencher sur la suite. En vrac :
- Adapter mon code à tous mes sites - Extraire les images - Trouver comment automatiquement les renommer - Trouver comment automatiquement les ranger - Commencer à regarder le machine learning de plus près