Mondher

De {}
Aller à la navigation Aller à la recherche

Hello !


travail en cours : ranking de termes médiatiques



Indice.jpg

Quoi ?


Une page web affiche un ranking en temps réel des termes utilisés dans les articles d'une sélection de médias de Suisse romande. Pour une sélection de sites internets, un classement des X mots les plus utilisés est présenté sous la forme d'un tableau de type indice boursier, avec les gains et les pertes en pourcentages de chaque terme.

Comment ?

1/ définir les sources


Une sélection de quatorze journaux suisse-romands a été retenue. Cette sélection contient la totalité des quotidiens de la partie francophone de Suisse; chaque canton est représenté. Les critères de sélection sont les suivants : le journal doit être un quotidien suisse-romand, il doit être francophone, il doit traiter de l’actualité internationale, nationale et cantonale et il doit diffuser ses informations sur un site internet et/ou une application entre autre.

Sélection:

· 24 heures (Canton de Vaud)
· Tribune de Genève (Canton de Genève)
· Le Temps (Canton de Genève)
· La Liberté (Canton de Fribourg)
· La Gruyère (Canton de Fribourg)
· Le Nouvelliste (Canton du Valais)
· Arc Info (Canton de Neuchâtel)
· Le Journal du Jura (partie francophone du Canton de Berne)
· Le Quotidien jurassien (Canton du Jura)
· La Côte (Région lémanique)
· La Région (Région Nord-vaudoise)
· Le Courrier (Romandie)
· Le Matin (Romandie)
· 20 Minutes (Romandie)

2/ diagramme de la base de données


Une structure de base de données a été créée sur sur phpMyAdmin. La base de données est structurée en catégories et sous-catégories distinctes. Toute informations récoltée est triée et classée dans la catégorie adéquate. Il y a trois catégories et trois sous-catégories :

La catégorie article : elle regroupe l’ID de la catégorie article, le titre de l’article, son header, son corps de texte, sa date de publication, sa date de modification (s’il y en a une), son url, sa source

—— La sous-catégorie source : elle regroupe l’ID de la source , son nom et son url

La catégorie article_aut·eur·ice: elle regroupe l’ID de la catégorie aut·eur·rice·s, l’ID de la sous-catégorie aut·eur·ice·s et l’ID des articles par aut·eur·rice·s

—— La sous-catégorie aut·eur·ice regroupe l’ID de chaque aut·eur·rice·s, son nom, son prénom et une courte bio (s’il y’en a une)

La catégorie article_mots: elle regroupe l’ID de la catégorie article_mots, l’ID de chaque article, l’ID de la sous-catégorie mots

—— La sous-catégorie mots : elle regroupe l’ID de chaque mot retenu et classé, le mot en question et la valeur de sa fréquence d’apparition

Diagramme base donnees.png

3/ écrire un programme pour récolter et stocker les informations




Schema indice p.png