{} - Contributions de l’utilisateur [fr]

Léo

2021-04-26T16:22:58Z

Leo Ouzegdouh :

= '''PROJET''' =
Je souhaite créer une base de données collectant un maximum de cartes anciennes, principalement de Bruxelles et de Paris, et classant ces cartes par lieu ainsi que par date. Etant très intéressé par l'urbanisme ainsi que par l'histoire, j'ai une grande curiosité pour ces vieilles cartes, et j'en consulte régulièrement. Je serai peut-être amené à en utiliser dans un projet artistique futur.

= '''SOURCES''' =

- https://www.geographicus.com/

- https://www.oldmapsonline.org/

- https://commons.wikimedia.org/

- https://www.discusmedia.com/

- https://www.mapsofthepast.com/

= '''STRUCTURE''' =

[[Fichier:Structure.png]]

= '''AVANCEMENT DU PREMIER QUADRI''' =
Mon projet a un peu évolué au cours du premier quadri. Je ne cherche plus uniquement des cartes de Paris et de Bruxelles, mais d'un maximum de villes différentes. Mon objectif final est d'avoir suffisamment de matière pour m'initier au machine learning. J'ai une vague première idée, celle d'un générateur automatique de cartes. Je n'ai aucune connaissance en machine learning, alors je verrai ce qu'il en sera à ce moment-là. Pour l'instant, je veux accumuler un maximum de données. L'idée sera alors d'exporter les images de chaque carte, avec un nom "ordonné" : ville-siècle.extension. Par exemple, Bruxelles-17.jpeg. Ensuite, je souhaite classer ces images pour les retrouver plus rapidement, en autant de sous-dossiers que possible. Par exemple, "Europe → Belgique → Flandre → Gand-15.png".

J'ai réussi assez simplement à récupérer les infos qui m'intéressaient sur certains de mes sites sources (geographicus et mapsofthepast). Un problème auquel j'ai été confronté, fut de rendre l'information propre. Par exemple, lorsque je récupérais le titre de la carte, il y avait beaucoup d'infos inutiles. Comment, en partant de "Map of Brussels, from the royal archives", réussir à obtenir "Bruxelles" ?

J'ai dû coder un petit bout de programme qui me permettait, premièrement, de nettoyer la phrase de tous les caractères inutiles comme les virgules, parenthèses, etc.

Ensuite, le programme me permettait d'isoler chaque mot, afin qu'il soit lu séparément. J'utilisais alors la librairie "Geonamescache" pour identifier les noms de villes parmi les mots. Une fois ceux-ci trouvés et les mots inutiles enlevés, j'utilisais la bibliothèque deep_translator pour automatiquement détecter la langue dans laquelle le nom de la ville était écrit, puis pour le traduire en français.

= '''OBJECTIFS DU SECOND QUADRI''' =
Mon premier objectif à court terme sera d'améliorer ce que j'ai déjà fait. J'ai deux problèmes principaux :

1 - Mon code est vraiment dégueulasse, c'est en grande partie pour ça que je ne le poste pas ici. J'apprends peu à peu le python, et me rends compte que je peux faire un code bien plus propre et compréhensible, notamment en utilisant des fonctions au lieu de recopier le même code à chaque fois. Je veux donc reprendre ce que j'ai fait, et le rendre plus compréhensible, car sinon je vais vite me perdre.

2 - En passant par la bibliothèque deep_translator, j'utilise un plugin google trad pour traduire les noms des villes. Problème : j'ai un nombre de requêtes (très) limité. Quand on les dépasse, le programme plante. Impossible de compter là-dessus pour la suite, alors je dois trouver une autre alternative. J'ai besoin de pouvoir détecter la langue automatiquement car il y en a de toutes sortes dans les noms des cartes, et aussi de traduire automatiquement. Je vais réfléchir à une solution dans ces prochaines semaines.

Une fois que j'aurai fait ça, je pourrai me pencher sur la suite. En vrac :

- Adapter mon code à tous mes sites
- Extraire les images
- Trouver comment automatiquement les renommer
- Trouver comment automatiquement les ranger
- Commencer à regarder le machine learning de plus près

= '''AVANCEMENT DU SECOND QUADRI''' =

J'ai réussi à bien avancer à partir du site Geographicus, à avoir l'accès à toutes les cartes qui m'intéressent depuis la page d'accueil du site. J'ai eu beaucoup de soucis pour les enregistrer, mais j'ai presque fini par réussir, il faudrait juste que j'ajoute un bypass pour éviter que le programme ne plante quand il y a une erreur 404. Si j'avais eu plus de temps, j'aurais aussi rendu l'enregistrement du nom de fichiers plus propre, et je les aurais classés par continent comme je comptais le faire. Voici le code en intégral :

import mechanize

import lxml.html as lh

import cssselect

import ssl

import geonamescache

from pathlib import Path

numFichier = 1
tousLesLiensImages = []

listeLiens = []
parcourirListeLiens = 0 # listeLiens contient tous les liens des catégories (Asian Maps, Europe maps, etc.) et parcourirListeLiens permet de parcourir cette liste

listeVraisLiens = []
parcourirListeVraisLiens = 0 # listeVraisLiens contient tous les liens des cartes dans chaque catégorie, et parcourirListeVraisLiens permet de parcourir cette liste

br = mechanize.Browser()

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.set_handle_robots(False)
#fin de la configuration de mechanize

try:
_create_unverified_https_context = ssl._create_unverified_context
except AttributeError:

pass
else:

ssl._create_default_https_context = _create_unverified_https_context

data = br.open('https://www.geographicus.com/P/RareMaps/city-maps-plans', timeout=50.0)

##data = br.open('https://www.geographicus.com/P/AntiqueMap/kremlenagrad-gerritsz-1642', timeout=50.0)

rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)

selecteurs = cssselect.parse('blockquote a')

for selecteur in selecteurs:
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:
lienCategorie = resultat.get('href')
lienListe = lienCategorie.split("&")
del lienListe[-1]
lienListe.append("&Sort_By=price_desc&Per_Page=-1")
vraiLien = "".join(lienListe)
listeLiens.append(vraiLien)

for loop in range(len(listeLiens)):

data = br.open(listeLiens[parcourirListeLiens], timeout=50.0)
rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)
selecteurs = cssselect.parse('.column.half.medium-one-fourth.category-product a')

for selecteur in selecteurs:
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:
listeVraisLiens.append(resultat.get('href'))
parcourirListeLiens += 1

for loop in range(len(listeVraisLiens)):

data = br.open(listeVraisLiens[parcourirListeVraisLiens], timeout=50.0)
rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)
selecteurs = (cssselect.parse('.normal.oldbeige.nm'))
selecteursImages = (cssselect.parse('.m-img-z'))

for selecteur in selecteurs:
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:
nomCarte = resultat.text_content()
if nomCarte.find("map") != -1 or nomCarte.find("Map") != -1 or nomCarte.find("plan") != -1 or nomCarte.find("Plan") != -1 :
quasiLigneSansAs = nomCarte.replace(" as ", " ")
ligneSansAs = quasiLigneSansAs.replace("/", " ")

espacesBrut = ""
espacesFinaux = ""
parcourirEspaces = 0
gc = geonamescache.GeonamesCache()
parcourirMots = 0

listeLigneSansAs = ligneSansAs.split(" ")
dateCarte = listeLigneSansAs[0]
del listeLigneSansAs[0]
places = " ".join(listeLigneSansAs)
nomDeLieu = ""

for loop in range(len(places)):
for char in places:
if(ord(char) == 39 or ord(char) == 45):
espacesBrut = espacesBrut + "?? ??" + char
if((ord(char) >= 97 and ord(char) <= 122) or (ord(char) >= 65 and ord(char) <= 90) or (ord(char) >= 192 and ord(char) <= 255 and ord(char) != 215 and ord(char) != 247) or (ord(char) == 32)):
espacesBrut += char
places = places[1:]

for loop in range(len(espacesBrut)):
for char in espacesBrut:
if((ord(char) >= 97 and ord(char) <= 122) or (ord(char) >= 65 and ord(char) <= 90) or (ord(char) >= 192 and ord(char) <= 255 and ord(char) != 215 and ord(char) != 247) or (ord(char) == 32)):
espacesFinaux += char
espacesBrut = espacesBrut[1:]

espaces = espacesFinaux.split(" ")

while len(espaces) > 0:
if len(espaces)-3 >= espaces.index(espaces[parcourirEspaces]):
resultat = espaces[parcourirEspaces]+" "+espaces[parcourirEspaces+1]+" "+espaces[parcourirEspaces+2]
villes = gc.search_cities(resultat)
if villes != []:
villeFinal = villes[0].get('name')
if villeFinal != 'Fier-Çifçi' :
nomDeLieu += villeFinal + " "
del espaces[parcourirEspaces]
del espaces[parcourirEspaces]
del espaces[parcourirEspaces]
else :
if len(espaces)-2 >= espaces.index(espaces[parcourirEspaces]):
resultat = espaces[parcourirEspaces]+" "+espaces[parcourirEspaces+1]
villes = gc.search_cities(resultat)
if villes != []:
villeFinal = villes[0].get('name')
if villeFinal != 'Fier-Çifçi' :
nomDeLieu += villeFinal + " "
del espaces[parcourirEspaces]
del espaces[parcourirEspaces]
else :
villes = gc.search_cities(espaces[parcourirEspaces])
if villes != []:
villeFinal = villes[0].get('name')
if villeFinal != 'Fier-Çifçi' :
nomDeLieu += villeFinal + " "

del espaces[parcourirEspaces]
else :
del espaces[parcourirEspaces]

elif len(espaces)-2 >= espaces.index(espaces[parcourirEspaces]):
resultat = espaces[parcourirEspaces]+" "+espaces[parcourirEspaces+1]
villes = gc.search_cities(resultat)
if villes != []:
villeFinal = villes[0].get('name')
if villeFinal != 'Fier-Çifçi' :
nomDeLieu += villeFinal + " "
del espaces[parcourirEspaces]
del espaces[parcourirEspaces]
else :
villes = gc.search_cities(espaces[parcourirEspaces])
if villes != []:
villeFinal = villes[0].get('name')
if villeFinal != 'Fier-Çifçi' :
nomDeLieu += villeFinal + " "

del espaces[parcourirEspaces]
else :
del espaces[parcourirEspaces]

else :
villes = gc.search_cities(espaces[parcourirEspaces])
if villes != []:
villeFinal = villes[0].get('name')
if villeFinal != 'Fier-Çifçi' :
nomDeLieu += villeFinal + " "
del espaces[parcourirEspaces]
else :
del espaces[parcourirEspaces]
print(nomDeLieu)

for selecteur in selecteursImages:
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:

lienImage = resultat.get('src')
if lienImage not in tousLesLiensImages :
tousLesLiensImages.append(lienImage)
lienImageListe = lienImage.split(".")
extensionImage = lienImageListe[-1]
nomSauvegarde = nomDeLieu + dateCarte +"."+extensionImage
print (lienImage)
if Path(nomSauvegarde).is_file():
nomSauvegarde = nomDeLieu + dateCarte+"_"+ str(numFichier) +"."+extensionImage
numFichier += 1
data = br.open(lienImage).read()
if data == True :
save = open(nomSauvegarde, 'wb')
save.write(data)
save.close()
parcourirListeVraisLiens += 1

= '''BILAN ET IDEES FUTURES''' =

J'ai beaucoup appris cette année, et j'ai très envie de continuer. Pour l'avenir, je voudrais achever de corriger les bugs qui restent, notamment de pouvoir bypasser les erreurs 404, enregistrer les noms plus proprement et mieux les classer.
Ensuite, je voudrais les enregistrer dans la base de donnée, et adapter ce système aux autres sélecteurs.

ERG::Code-2020-2

2021-02-11T10:59:31Z

Leo Ouzegdouh : /* 11 février 2021 */

==Introduction==
Ce cours est destiné aux étudiant.e.s de BAC3. Cette année, nous nous concentrons sur les bases de données, définies comme "une collection structurée d'éléments sur laquelle l'utilisateur.trice peut effectuer une série d'opérations: voir, naviguer, chercher" (Lev Manovich, ''Le langage des Nouveaux Médias'').

==Sessions==
===11 février 2021===

Liste des sources: sites d'actualités, Suisse Romande
* 24 heures (Canton de Vaud)
* Tribune de Genève (Canton de Genève)
* Le Temps (Canton de Genève)
* La Liberté (Canton de Fribourg)
* La Gruyère (Canton de Fribourg)
* Le Nouvelliste (Canton du Valais)
* Arc Info (Canton de Neuchâtel)
* Le Journal du Jura (partie francophone du Canton de Berne)
* Le Quotidien jurassien (Canton du Jura)
* La Côte (Région lémanique)
* La Région (Région Nord-vaudoise)
* Le Courrier (Romandie)
* Le Matin (Romandie)
* 20 Minutes (Romandie)

24 heures :
https://www.24heures.ch/la-protection-civile-apprehende-une-baisse-drastique-de-ses-effectifs-630970735239
selecteurs = cssselect.parse('article h1, article h2, article h3, article p, article time')

Tribune de Genève :
https://www.tdg.ch/astrazeneca-double-ses-benefices-528778374505
selecteurs = cssselect.parse('article h1, article h2, article h3, article p, article time')

La Gruyère : https://www.lagruyere.ch/2021/02/%C2%AB-nous-demand%C3%A9-de-nous-endetter-pour-la-soci%C3%A9t%C3%A9%C2%BB.html

selecteurs = cssselect.parse('article h1, h2, article h3, article p, article time')

Le Nouvelliste : https://www.lenouvelliste.ch/articles/monde/reseaux-sociaux-twitter-ne-laissera-pas-revenir-donald-trump-1043625

selecteurs = cssselect.parse('article h1, h2, article h3, article p, article time')

Le Matin : https://www.lematin.ch/story/il-faut-permettre-davantage-dactivites-pour-les-jeunes-916146511842

Sélecteurs : cssselect.parse('div.Article_elementTitle__3we9B h1, div.Article_elementLead__2nNxU h2, h3, div.Article_elementTextblockarray__WdRYM p, .sc-17d1f6z-1.gBPCId')

20 Minutes : https://www.20min.ch/fr/story/futurs-apprentis-les-profs-genes-par-les-recruteurs-259502039975

Sélecteurs : cssselect.parse('div.Article_elementTitle__3we9B h1, div.Article_elementLead__2nNxU h2, h3, div.Article_elementTextblockarray__WdRYM p, .sc-17d1f6z-1.gBPCId')

<syntaxhighlight lang="python">
#un programme qui récupère les données contenues dans les sélecteurs css suivants à partir d'une page d'article de lecourrier.ch
#article h1, article h2, article h3, article p et article time

import mechanize

import lxml.html as lh

import cssselect

import ssl

import os

from urllib.parse import urlparse

#initialisation d'un objet "navigateur" avec la librairie mechanize
br = mechanize.Browser()

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.set_handle_robots(False)
#fin de la configuration de mechanize

try:
_create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
# Legacy Python that doesn't verify HTTPS certificates by default
pass
else:
# Handle target environment that doesn't support HTTPS verification
ssl._create_default_https_context = _create_unverified_https_context

data = br.open('https://lecourrier.ch/2021/02/10/morten-gisselbaek-le-candidat-de-la-decroissance/', timeout=10.0)

rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)

#on convertit un sélecteur css en objets de type "cssselector"
selecteurs = cssselect.parse('article h1.c-Article-titre, article .c-Article-chapeau, article .c-Article-metaDate, article c-Article-metaJournaliste, article .c-Article-texte')

selecteursImages = cssselect.parse('article .c-Article-imageFeatured img')

for selecteur in selecteurs:
print(selecteur)
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:
print(resultat.text_content())

for selecteur in selecteursImages:
print(selecteur)
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:
imageUrl = 'https://lecourrier.ch'+resultat.get('src')
print('downloading'+imageUrl)
filename = 'test.jpg'
data = br.open(imageUrl).read()

save = open(filename, 'wb')
save.write(data)
save.close()

</syntaxhighlight>

===17 décembre 2020===
<syntaxhighlight lang="python">
import mechanize

import lxml.html as lh

import cssselect

import ssl

def getInfos(src, selecteurcss):
selecteur = cssselect.parse(selecteurcss)
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur[0], translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
return resultats

#initialisation d'un objet "navigateur" avec la librairie mechanize
br = mechanize.Browser()

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; Linux x86_64; rv:82.0) Gecko/20100101 Firefox/82.0')]

br.set_handle_robots(False)
#fin de la configuration de mechanize

try:
_create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
# Legacy Python that doesn't verify HTTPS certificates by default
pass
else:
# Handle target environment that doesn't support HTTPS verification
ssl._create_default_https_context = _create_unverified_https_context

data = br.open('https://regards.monuments-nationaux.fr/fr/asset/link/104-technique-s-et-materiau-x/vitrail/page/1', timeout=10.0)

#https://regards.monuments-nationaux.fr/fr/asset/link/104-technique-s-et-materiau-x/vitrail/page/1

#https://regards.monuments-nationaux.fr/fr/asset/link/104-technique-s-et-materiau-x/vitrail/page/1

#https://regards.monuments-nationaux.fr/fr/asset/link/104-technique-s-et-materiau-x/vitrail/page/2

#br.follow_link(text_regex=r"cheese\s*shop", nr=1)
#data = br.follow_link(url=r"/lesgrandsclassiques/Poemes", nr=0)

rawdata = data.read()

unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)

thumbnails = getInfos(src, 'span.thumbnail_url')
descriptions = getInfos(src, 'span.asset-descr')

</syntaxhighlight>

===10 décembre 2020===
<syntaxhighlight lang="python">
import re

#on part de l'url de la thumbnail: https://regards.monuments-nationaux.fr//thumbnails/00000000100/gmw20_0194.thw
#et l'url du lien pour le zoom: fr/asset/id/99816/tour-de-la-lanterne-lanterne-vitraux/fromSearch/1/initiatorAction/metadataInternalLink/mosaicCount/2877/thumbIndex/0
#on veut arriver à ça: https://regards.monuments-nationaux.fr/fr/asset/assetFile/id/99816/size/3/type/1/filename/CMN_gmw20_0194

thumbnailURL = input('Entrer l\'url de la thumbnail')
linkURL = input('Entrer l\'url du lien')

#thumbnailURL = 'https://regards.monuments-nationaux.fr//thumbnails/00000000100/gmw20_0194.thw'
#linkURL = 'fr/asset/id/99816/tour-de-la-lanterne-lanterne-vitraux/fromSearch/1/initiatorAction/metadataInternalLink/mosaicCount/2877/thumbIndex/0'

#de l'url du lien on récupère l'id grâce à une expression régulière
searchObj = re.search( r'id/([0-9]+)/', linkURL )
id = searchObj.group(1)

#https://regards.monuments-nationaux.fr//thumbnails/00000000100/gmw20_0194.thw
#de l'url de la thumbnail on récupère le nom du fichier sans l'extension
searchObj = re.search( r'/([^/]*)\.thw', thumbnailURL )
fileName = searchObj.group(1)

finalURL = 'https://regards.monuments-nationaux.fr/fr/asset/assetFile/id/'+id+'/size/3/type/1/filename/'+fileName
print('Attention voici l\'URL de l\'image! ' + finalURL)

</syntaxhighlight>
===03 décembre 2020===
<syntaxhighlight lang="python">
#un programme qui récupère les données contenues dans les sélecteurs css suivants:
#article h1, div.lead, div.gr-media-image img, div.gr-article-content à partir d'une page d'article de lesoir.be

import mechanize

import lxml.html as lh

import cssselect

import ssl

#initialisation d'un objet "navigateur" avec la librairie mechanize
br = mechanize.Browser()

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.set_handle_robots(False)
#fin de la configuration de mechanize

try:
_create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
# Legacy Python that doesn't verify HTTPS certificates by default
pass
else:
# Handle target environment that doesn't support HTTPS verification
ssl._create_default_https_context = _create_unverified_https_context

data = br.open('https://www.lesoir.be/340088/article/2020-11-26/reouverture-des-commerces-fetes-ce-qui-sera-discute-par-le-comite-de', timeout=10.0)

#print(data.read())
#br.follow_link(text_regex=r"cheese\s*shop", nr=1)
#data = br.follow_link(url=r"/lesgrandsclassiques/Poemes", nr=0)

rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)

#on convertit un sélecteur css en objets de type "cssselector"
selecteurs = cssselect.parse('article h1, article h2')
# 0
#[selecteur1, selecteur2]

#[selecteur de type cssselect]

for selecteur in selecteurs:
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteur, translate_pseudo_elements=True)
resultats = src.xpath(chemin_xpath)
for resultat in resultats:
print(resultat.text_content())
</syntaxhighlight>
===26 novembre 2020===
<syntaxhighlight lang="python">
#un programme qui récupère les données contenues dans les sélecteurs css suivants:
#article h1, div.lead, div.gr-media-image img, div.gr-article-content à partir d'une page d'article de lesoir.be

import mechanize

import lxml.html as lh

import cssselect

#initialisation d'un objet "navigateur" avec la librairie mechanize
br = mechanize.Browser()

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.set_handle_robots(False)
#fin de la configuration de mechanize

data = br.open('https://www.lesoir.be/340088/article/2020-11-26/reouverture-des-commerces-fetes-ce-qui-sera-discute-par-le-comite-de', timeout=10.0)

print(data.read())
</syntaxhighlight>
<syntaxhighlight lang="python">
#un programme qui récupère les données contenues dans les sélecteurs css suivants:
#article h1, div.lead, div.gr-media-image img, div.gr-article-content à partir d'une page d'article de lesoir.be

import mechanize

import lxml.html as lh

import cssselect

import ssl

#initialisation d'un objet "navigateur" avec la librairie mechanize
br = mechanize.Browser()

br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]

br.set_handle_robots(False)
#fin de la configuration de mechanize

try:
_create_unverified_https_context = ssl._create_unverified_context
except AttributeError:
# Legacy Python that doesn't verify HTTPS certificates by default
pass
else:
# Handle target environment that doesn't support HTTPS verification
ssl._create_default_https_context = _create_unverified_https_context

data = br.open('https://www.lesoir.be/340088/article/2020-11-26/reouverture-des-commerces-fetes-ce-qui-sera-discute-par-le-comite-de', timeout=10.0)

#print(data.read())
#br.follow_link(text_regex=r"cheese\s*shop", nr=1)
#data = br.follow_link(url=r"/lesgrandsclassiques/Poemes", nr=0)

rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)

#une liste en python
# 0 1 2
liste = ['coucou', 'pouetpouet', 'byebye']

print(liste[2])

selecteurs = cssselect.parse('article h1')
#[selecteur de type cssselect]
chemin_xpath = cssselect.HTMLTranslator().selector_to_xpath(selecteurs[0], translate_pseudo_elements=True)
#selecteur de type xpath

resultats = src.xpath(chemin_xpath)
# 0
#[html element]
print(resultats[0].text_content())
</syntaxhighlight>

== Formation HTML/CSS utile en complément du cours ici : ==

https://www.youtube.com/watch?v=Y80juYcu3ZI&list=PLwLsbqvBlImHG5yeUCXJ1aqNMgUKi1NK3

===19 novembre 2020===

====html et css====
<syntaxhighlight lang="html5">
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>Sélecteurs css</title>
<link href="styles.css" rel="stylesheet" type="text/css">
</head>
<body>
<section id="actualite">
<h1>Ma section actualité</h1>
<article class="breve">
<header>Chapeau de l'article</header>
<div>
Contenu de l'article <a href="http://www.curlybraces.be">Un lien vers un site</a>
<h3>Sous-titre de l'article</h3>
<time>13:00</time>
<time>13:00</time>
<time data-type="begin-hour">15:00</time>

</div>
<footer>Footer de l'article</footer>
</article>
<article class="article-full">
<header>Chapeau de l'article 2</header>
<div>
Contenu de l'article 2 <a href="http://www.curlybraces.be">Un lien vers un site</a>

</div>
<footer>Footer de l'article 2</footer>
</article>
<article class="article-full">
<header>Chapeau de l'article 3</header>
<div>
Contenu de l'article 3 <a href="http://www.curlybraces.be">Un lien vers un site</a>

</div>
<footer>Footer de l'article 3</footer>
</article>
</section>

<section id="archives">
<h1>Ma section Archives</h1>
<article class="breve">
<header>Chapeau de l'article</header>
<div>
Contenu de l'article <a href="http://www.curlybraces.be">Un lien vers un site</a>

</div>
<footer>Footer de l'article</footer>
</article>
</section>
</body>
</html>

</syntaxhighlight>

<syntaxhighlight lang="css">
/*pointeur css vers balise html*/
html, body{
margin:0;
padding:0;
}
h1{
font-family:Helvetica, Arial, sans-serif;
font-weight:normal;
margin:10px;
padding:10px;
border:1px solid black;
}
/*pointeur css vers un ID*/
section#archives{
background-color:gray;
}

article{
border-bottom:1px solid black;
}
/*pointeur css vers une classe*/
.breve{
font-size:48pt;
border-bottom:2px solid black;
}
.article-full{
font-size:16pt;
}
/* pointeur css avec chemin */
section#actualite a{
color:green;
}
section#actualite article.article-full a{
color:red;
}
/* pointeur css avec chemin vers un enfant précis d'une balise */
section#actualite article.article-full:nth-child(3) a{
color:pink;
}

/*pointeur css avec un chemin vers un élément qui suit directement un autre élément*/
h3+time{
background:green;
}

time[data-type='begin-hour']{
background:blue;
}

</syntaxhighlight>

====Librairies Python====
* pour naviguer:
** pycurl (http://pycurl.io/)
** urllib2 (https://docs.python.org/2/library/urllib2.html)
** requests (https://requests.readthedocs.io/en/master/)
** mechanize (https://mechanize.readthedocs.io/en/latest/index.html)
* pour parser:
** beautifulsoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/)
** lxml (https://lxml.de/xpathxslt.html)
** cssselect (https://cssselect.readthedocs.io/en/latest/)

*User agent :
**What is my browser (https://www.whatismybrowser.com/guides/the-latest-user-agent/firefox)
<syntaxhighlight lang="python">
#!/usr/bin/python
# -*- coding: utf-8 -*-

import mechanize
import lxml.html as lh
import cssselect

br = mechanize.Browser()
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.1) Gecko/2008071615 Fedora/3.0.1-1.fc9 Firefox/3.0.1')]
br.set_handle_robots(False)
data = br.open('https://poesie.webnet.fr/lesgrandsclassiques/Authors/B', timeout=10.0)

#br.follow_link(text_regex=r"cheese\s*shop", nr=1)

#data = br.follow_link(url=r"/lesgrandsclassiques/Poemes", nr=0)

rawdata = data.read()
unicode = rawdata.decode('utf-8', 'ignore')
src = lh.fromstring(unicode)

for selector in cssselect.parse('.author-list__link'):
expression = cssselect.HTMLTranslator().selector_to_xpath(selector, translate_pseudo_elements=True)
for result in src.xpath(expression):
print(result.text_content())
print(result.get('href'))
</syntaxhighlight>

==Pages des étudiant.e.s==
[[Utilisateur:Simon BLONDEAU|Simon Blondeau]]

[[Page de William]]

[[Mondher]]

[[Lea]]

[[MP Antoin]]

[[Utilisateur:Pierreetheve|Pierre Ethève]]

[[Utilisateur:Chloé|Chloé]]

[[Jonquille]]

[[margot]]

[[Léo]]

[[César]]

[[Utilisateur:arthurlafontaine|Arthur Lafontaine]]

[[Etienne Grignon]]

==Déroulement du cours==
Le cours ne nécessite aucun prérequis si ce n'est une capacité d'attention pendant les séances. Cette attention implique qu'à certains moments, par exemple lors des moments de discussions ou de présentations, il sera demandé aux étudiant.e.s de fermer leur ordinateur, que l'usage des smartphones est interdit et que les étudiant.e.s doivent arriver à l'heure au cours (9h, le lundi matin).

Comme il s'agit d'un cours technique, les travaux se feront majoritairement en classe et il n'est pas absolument nécessaire de travailler en dehors du cours, à part pour documenter les travaux ou préparer leurs présentations (les cotations).

Le cours fonctionne en évaluation continue, ce qui signifie que chaque exercice réalisé en atelier aura une note attribuée. Pour réussir le cours, il faut essentiellement être présent.e.

À cette évaluation continue s'ajoute deux notes en décembre et en mai qui correspondent aux moments de cotations. Il est demandé pour ces cotations de présenter une sélection des travaux réalisés jusque là.

La difficulté technique, bien que présente, ne doit pas constituer une barrière pour assister au cours. Il ne sera pas demandé aux étudiant.e.s d'être performant.e.s mais plutôt de ne pas se braquer et d'accepter d'être inefficaces durant des périodes qui semblent parfois longues (voire trouver du plaisir dans ces périodes de recherches). L'entraide et le partage sont encouragés. Tout sera fait pour éviter des comportements de mise à distance du savoir entre celles et ceux "qui savent" et les "newbies".

Chaque étudiant.e a accès à ce wiki, qui servira durant toute l'année à documenter les travaux. La création des comptes pour le wiki se fait au début du deuxième cours (au moment de l'inscription au cours).

ERG::Code-2020-2

2021-02-11T10:59:14Z

Leo Ouzegdouh : /* 11 février 2021 */

Léo

2021-01-19T19:46:33Z

Leo Ouzegdouh :

Léo

2020-12-06T18:57:39Z

Leo Ouzegdouh : /* SOURCES */

Léo

2020-10-28T10:18:50Z

Leo Ouzegdouh : /* STRUCTURE */

Fichier:Structure.png

2020-10-28T10:17:45Z

Leo Ouzegdouh : Structure Ouzegdouh Léo

Structure Ouzegdouh Léo

Léo

2020-10-28T09:52:17Z

Leo Ouzegdouh : Page créée avec « = '''PROJET''' = Je souhaite créer une base de données collectant un maximum de cartes anciennes, principalement de Bruxelles et de Paris, et classant ces cartes par li... »