[quote=“Arnaud_”]Effectivement cela ne marche pas si tu veux récupérer des balises à l’intérieur du td.
On peut ôter l’effet glouton de cette façon :
Dans ton exemple, la dernière balise td n’est pas fermée correctement, donc cela ne renverra que 3 contenus.[/quote]
Effectivement dans l’exemple elle n’est pas fermé mais sur le site elle l’est bien. En tous cas cette fois ta regex fonctionne.
Mais je ne la comprends pas trop. Le ? signifie 0 ou 1 je n’arrive pas a comprendre comment il agit sur cette règle…
[quote=“limax”]Avec beautifulsoup.
Ref: sametmax.com/parser-du-html-avec-beautifulsoup/
from urllib2 import urlopen
import bs4 as BeautifulSoup
html = urlopen('http://www.d8.tv/d8-series/pid6654-d8-longmire.html').read()
soup = BeautifulSoup.BeautifulSoup(html)
et après un truc comme
C’est quoi le lien de ton site?[/quote]
Le site est ici : http://www.pogdesign.co.uk/cat/
Je viens de testé avec ta ligne de beautifulsoup et effectivement elle me ressort bien les infos qui m’intéressent. Seulement contrairement à la regex je me retrouve avec toutes les infos à la suite et non dans un tableau. Il est donc plus compliqué pour moi de récupérer les infos qui m’intéressent au final (voir mon post juste au-dessus). A moins que la beautifulsoup me permettent aussi d’aller piocher les infos qui m’intéressent.
Comme je l’ai dit, au final j’ai besoin d’extraire pour chaque épisode les infos suivantes : Date de passage, heure de passage, nom de la série, nom de l’épisode, chaine sur laquelle ça passe, numéro de la saison et numéro de l’épisode.