Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Myrville · Message par **Myrville** » mar. 10/mars/2026 12:59

Bonjour à tous,
Je lance ce sujet parce que je suis en train de bricoler un petit outil personnel en PureBasic et je me pose quelques questions sur la meilleure manière de faire certaines choses.
L’idée de base est assez simple : j’aimerais créer un programme qui récupère le code HTML d’une page web et qui analyse rapidement certains éléments de structure (par exemple les balises importantes, les titres, ou la façon dont le contenu est organisé). Ce n’est pas un gros projet, plutôt un petit utilitaire pour mes tests quand je travaille sur des sites et c'est ce que j'ai vue sur ce site qui m'a un peu inspiré.
Pour récupérer la page, je pense utiliser les fonctions réseau de PureBasic, ça ne devrait pas être trop compliqué. Là où j’hésite davantage, c’est sur la partie analyse du HTML. Je me demande si certains d’entre vous ont déjà fait ce genre de chose avec PureBasic. Est-ce que vous passez par un parsing maison avec des expressions régulières, ou vous avez déjà utilisé une librairie externe pour manipuler le HTML plus proprement ?
Je me dis que je ne suis sûrement pas le premier à vouloir analyser la structure d’une page web avec PB, donc je serais curieuse d’avoir vos retours d’expérience avant de partir dans une mauvaise direction.
Si certains ont déjà tenté ce genre d’outil ou ont des pistes techniques, je suis preneuse. Merci d’avance pour vos idées !

boddhi · Message par **boddhi** » mar. 10/mars/2026 16:55

Salut et bienvenue sur le site.

Ici, un petit code qui pourra peut-être t'aider. Il demandera certainement à être amélioré.

Myrville · Message par **Myrville** » mar. 10/mars/2026 18:37

Cc boddhi,
Merci pour le lien et pour l’accueil.
Je suis allée regarder la discussion que tu m'as partagée et je trouve le code assez intéressant. Je trouve aussi l’approche avec les RegEx pour détecter les balises assez impressionnante, surtout pour gérer l’indentation et récupérer les attributs.
Je comprends mieux pourquoi beaucoup de gens disent que l’analyse du HTML peut vite devenir compliquée dès qu’on veut faire quelque chose d’un peu robuste.

Myrville · Message par **Myrville** » mar. 10/mars/2026 18:42

boddhi a écrit : mar. 10/mars/2026 16:55 Salut et bienvenue sur le site.

Ici, un petit code qui pourra peut-être t'aider. Il demandera certainement à être amélioré.

Une autre chose qui m’a aussi interpellée dans la discussion, c’est le passage sur les problèmes liés à certains caractères Unicode. C’est justement le genre de cas auquel je n’aurais probablement pas pensé au départ.
Dans mon cas l’idée n’est pas forcément de refaire un outil aussi complet, mais plutôt de récupérer certaines informations simples dans une page (par exemple les balises de titres ou certains attributs). Du coup je me demandes encore, avec le recul, si danss ce cas précis on peut repartir toujours sur une approche RegEx pour ce type d’analyse ou on peut privilégier aujourd’hui une autre méthode.
En tout cas merci pour le partage du code (enfin de la discussion hein) ça donne déjà une bonne base de réflexion.

boddhi · Message par **boddhi** » mar. 10/mars/2026 22:53

Myrville a écrit : [...] les problèmes liés à certains caractères Unicode. [...]

En effet, la bibliothèque RegularExpression ne gère pas correctement les caractères Unicode codés sur plus de deux octets et plus particulièrement la fonction RegularExpressionMatchLength().
Le recours à cette bibliothèque pour l'analyse des balises HTML se révèle des plus pertinents dès lors que l'on est certain de ne pas être confronté à cette problématique sinon, à moins d'une alternative que j'ignore, il convient de passer par une gestion purement textuelle, ce qui est plus chiant.

Myrville a écrit : Dans mon cas l’idée n’est pas forcément de refaire un outil aussi complet, mais plutôt de récupérer certaines informations simples dans une page (par exemple les balises de titres ou certains attributs). Du coup je me demandes encore, avec le recul, si danss ce cas précis on peut repartir toujours sur une approche RegEx pour ce type d’analyse ou on peut privilégier aujourd’hui une autre méthode.

Je ne sais pas quel est ton but précis mais ci-dessous un petit exemple qui affiche les sections et sous-sections du forum PB anglais :

Code : Tout sélectionner

EnableExplicit
; ╔═════════════════════════════════════════════════════════════════════════════╗
; ║ STRUCTURES - ENUMERATIONS - CONSTANTES - MACROS - MAPS - VARIABLES GLOBALES ║
; ╚═════════════════════════════════════════════════════════════════════════════╝
;{ ════  ENUMERATIONS        ════
;- ════  ENUMERATIONS
Enumeration RegEx
  #REGEX_HTMLBAL
  #REGEX_CSID
EndEnumeration
;}
;{ ════  CONSTANTES          ════
;- ════  CONSTANTES
#HTML_REGEXHTMLBAL="</?\w+:?\w*((\s+(\w+-?+)+:?\w?+(\s*=\s*(?:"+#DQUOTE$+".*?"+#DQUOTE$+"|'.*?'|[^'"+#DQUOTE$+">\s]+))?)+\s*|\s*)/?>"
#HTML_REGEXCSID="(?i)-[\d\w]{8}(-[\d\w]{4}){3}-[\d\w]{12}$"
;}
;-══════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════
; ╔════════════╗
; ║ PROCEDURES ║
; ╚════════════╝
Procedure.s Fc_Recuperation_DonneesHTMLRequeteHTTP(ArgRequeteHTTP.s,ArgMode=#PB_UTF8)
  Protected.i IDRequeteHTTP
  Protected.s TitreMSG="Requête HTTP",Statut,TexteHTML

  IDRequeteHTTP=HTTPRequest(#PB_HTTP_Get,ArgRequeteHTTP)
  If IDRequeteHTTP
    Statut=HTTPInfo(IDRequeteHTTP,#PB_HTTP_StatusCode)
    If Statut="200"
      TexteHTML=HTTPInfo(IDRequeteHTTP,#PB_HTTP_Response,ArgMode)
      FinishHTTP(IDRequeteHTTP)
      ProcedureReturn TexteHTML
    ElseIf Statut<>"0" And Statut<>"404"
      MessageRequester(TitreMSG,UnescapeString("Erreur lors du retour de la requête :\n\nCode : "+Statut+"\n\n"+ArgRequeteHTTP),#PB_MessageRequester_Error)
    EndIf
  Else
    MessageRequester(TitreMSG,UnescapeString("Echec de la requête\n\n"+ArgRequeteHTTP),#PB_MessageRequester_Error)
  EndIf
EndProcedure
Procedure   Pc_Recuperation_DonneesChaineHTML_ListeSectionsForum(ArgChaineHTML.s)
  ;{ Variables obligatoires
  Protected.i AncPosition=1         ; Position précédente dans la variable TexteFichier
  Protected.i NouvPosition          ; Position actuelle dans la variable TexteFichier après appel RegEx
  Protected.i LongChaine            ; Longueur de la chaine textuelle entre deux balises
  Protected.a Commentaire           ; Commentaire HTML en cours de traitement (Booléen)
  Protected.s ChaineHTML            ; Contenu balise HTML ou Contenu entre deux balises
  Protected.s ChaineHTMLModifiee    ; ChaineFichier expurgée des espaces
  ;}
  Protected.a BaliseTableTrouvee
  Protected.a BaliseSectionForumTrouvee
  Protected.a BaliseTitreSectionTrouvee
  Protected.a BaliseForumTrouvee
  Protected.a BaliseDetailsForumTrouvee
  Protected.a BaliseTitreForum
  Protected.a NoLigneInformation
  
  CreateRegularExpression(#REGEX_CSID,#HTML_REGEXCSID,#PB_RegularExpression_NoCase)
  ; Suppression des LF, CR & TAB
  CompilerIf #PB_Compiler_Version<=630
    ReplaceString(ArgChaineHTML,Chr(10)," ",#PB_String_InPlace)
    ReplaceString(ArgChaineHTML,Chr(13)," ",#PB_String_InPlace)
    ReplaceString(ArgChaineHTML,Chr(9)," ",#PB_String_InPlace)
  CompilerElse
    ArgChaineHTML=ReplaceString(ReplaceString(ReplaceString(ArgChaineHTML,Chr(10)," "),Chr(13)," "),Chr(9)," ")
  CompilerEndIf
  ArgChaineHTML=Trim(ArgChaineHTML)
  ; Test entête fichier HTML
  If UCase(Left(ArgChaineHTML,15))<>"<!DOCTYPE HTML>"                                       ; ← A adapter en fonction de l'entête de la page HTML
    MessageRequester("Analyse Balises et attributs HTML","Le fichier ne semble pas être un fichier HTML",#PB_MessageRequester_Error)
    ProcedureReturn
  EndIf
  ; Boucle lecture des balises
  If CreateRegularExpression(#REGEX_HTMLBAL,#HTML_REGEXHTMLBAL)
    If ExamineRegularExpression(#REGEX_HTMLBAL,ArgChaineHTML)
      While NextRegularExpressionMatch(#REGEX_HTMLBAL)
        NouvPosition=RegularExpressionMatchPosition(#REGEX_HTMLBAL)

        ; Analyse du contenu entre deux balises ou commentaires HTML "<!-- blabla -->"
        If AncPosition<>NouvPosition                                                                  ; Texte ou commentaire
          LongChaine=NouvPosition-AncPosition
          ChaineHTML=Mid(ArgChaineHTML,AncPosition,LongChaine)                                        ; ATTENTION : Ajout de +1 pour compenser un caractère Unicode dans l'en-tête
          If Left(LTrim(ChaineHTML),4)="<!--"                                                         ; Balise début commentaire
            If Right(RTrim(ChaineHTML),3)<>"-->"                                                      ; Commentaire encadrant:"<!-- blabla > <blabla> blabla <!-->"
              Commentaire=#True
            EndIf
          ElseIf Right(RTrim(ChaineHTML),3)="-->"                                                     ; Balise fin commentaire encadrant
            Commentaire=#False
          ElseIf BaliseTableTrouvee
            If BaliseTitreSectionTrouvee
              Debug "Section du forum : "+ChaineHTML
              BaliseSectionForumTrouvee=#False:BaliseTitreSectionTrouvee=#False                       ; On n'a plus besoin pour le moment de ces balises
            ElseIf BaliseTitreForum
              ChaineHTML=Trim(ChaineHTML)
              If ChaineHTML
                Select NoLigneInformation
                  Case 0
                    Debug "  Titre du forum : "+ChaineHTML
                    NoLigneInformation+1
                  Case 1
                    Debug "    Description du forum : "+ChaineHTML
                    NoLigneInformation=0
                    BaliseTitreForum=#False                                                           ; On n'a plus besoin pour le moment de cette balise et on s'évite ainsi des tests ultérieurs inutiles
                EndSelect
              EndIf
            EndIf
          EndIf
        EndIf
        ; Analyse balise HTML
        LongChaine=RegularExpressionMatchLength(#REGEX_HTMLBAL)
        ChaineHTML=RegularExpressionMatchString(#REGEX_HTMLBAL)
        If Left(ChaineHTML,19)="<div id="+Chr(34)+"page-body"+Chr(34)                                 ; Balise table sections forum
          BaliseTableTrouvee=#True
        ElseIf BaliseTableTrouvee
          If ChaineHTML="</ul>"                                                                       ; Balise fin section forum
          ElseIf ChaineHTML="<ul class="+Chr(34)+"topiclist"+Chr(34)+">"                              ; Balise section forum
            BaliseSectionForumTrouvee=#True
          ElseIf BaliseSectionForumTrouvee
            If Left(ChaineHTML,27)="<a href="+Chr(34)+"./viewforum.php?f="                            ; Balise lien hypertexte section comportant le nom de la section
              BaliseTitreSectionTrouvee=#True
            EndIf
          ElseIf ChaineHTML="<ul class="+Chr(34)+"topiclist forums"+Chr(34)+">"                       ; Balise section forum
            BaliseForumTrouvee=#True
          ElseIf BaliseForumTrouvee
            If ChaineHTML="<dl class="+Chr(34)+"row-item forum_read"+Chr(34)+">"
              BaliseDetailsForumTrouvee=#True
            ElseIf BaliseDetailsForumTrouvee
              If Left(ChaineHTML,27)="<a href="+Chr(34)+"./viewforum.php?f="
                BaliseTitreForum=#True
              EndIf
            EndIf
          ElseIf ChaineHTML="<form method="+Chr(34)+"post" +Chr(34)+"action="+Chr(34)+"./ucp.php?mode=login" +Chr(34)+"class="+Chr(34)+"headerspace panel"+Chr(34)+">"
            ; On n'a pas besoin d'analyser plus loin
            Break
          EndIf
        EndIf
        AncPosition=NouvPosition+LongChaine
      Wend
    EndIf
  EndIf
EndProcedure
;
Define.s ChaineHTMML=Fc_Recuperation_DonneesHTMLRequeteHTTP("https://www.purebasic.fr/english/index.php")
If ChaineHTMML
  Pc_Recuperation_DonneesChaineHTML_ListeSectionsForum(ChaineHTMML)
EndIf

falsam · Message par **falsam** » mer. 11/mars/2026 15:51

Une solution sans regex.

Un mini parser HTML simple mais très pratique pour récupérer rapidement :
.<title>
.les balises <meta>
.Les liens <a>
.Les images <img>

Le principe : on parcourt les balises < > et on extrait leurs attributs.

Code : Tout sélectionner

;Voici un mini parser HTML simple mais très pratique  pour récupérer rapidement :
; .<title>
; .les balises <meta>
; .Les liens <a>
; .Les images <img>

;Le principe : on parcourt les balises < > et on extrait leurs attributs.

; Récupérer un attribut HTML
Procedure.s GetAttribute(tag.s, attribute.s)
  Protected pos, pos2
  Protected quote.s = Chr(34)
  
  pos = FindString(tag, attribute + "=" + quote, 1, #PB_String_NoCase)
  
  If pos
    pos + Len(attribute + "=" + quote)
    pos2 = FindString(tag, quote, pos)
    
    If pos2
      ProcedureReturn Mid(tag, pos, pos2-pos)
    EndIf
  EndIf
  ProcedureReturn ""
EndProcedure

; Parser HTML simple
Procedure ParseHTML(html.s)
  Protected pos1, pos2
  Protected tag.s
  
  pos1 = 1
  
  While pos1
  
    pos1 = FindString(html, "<", pos1)
    If pos1 = 0 : Break : EndIf
    
    pos2 = FindString(html, ">", pos1)
    If pos2 = 0 : Break : EndIf
    
    tag = Mid(html, pos1+1, pos2-pos1-1)
    
    ; ----- META DESCRIPTION -----
    If FindString(tag, "meta", 1, #PB_String_NoCase)
      
      If LCase(GetAttribute(tag,"name")) = "description"
        Debug "Description : " + GetAttribute(tag,"content")
      EndIf
      
      If LCase(GetAttribute(tag,"name")) = "title"
        Debug "title : " + GetAttribute(tag,"content")
      EndIf
      
    EndIf
    
    ; ----- LIENS -----
    If Left(LCase(tag),1) = "a"
      If GetAttribute(tag,"href") <> ""
        Debug "Lien : " + GetAttribute(tag,"href")
      EndIf
    EndIf
    
    ; ----- IMAGES -----
    If FindString(tag, "img", 1, #PB_String_NoCase)
      
      Debug "Image : " + GetAttribute(tag,"src")
      
    EndIf
    
    pos1 = pos2 + 1
    
  Wend
EndProcedure

; Extraction du TITLE quand il se trouve dans une balise <title>
Procedure.s GetTitle(html.s)
  Protected pos1, pos2
  
  pos1 = FindString(html, "<title>",1,#PB_String_NoCase)
  
  If pos1
    pos1 + 7
    pos2 = FindString(html, "</title>",pos1,#PB_String_NoCase)
    
    If pos2
      ProcedureReturn Mid(html,pos1,pos2-pos1)
    EndIf
  EndIf
  
  ProcedureReturn ""
EndProcedure

;-
;- Zone de test
;-
Define url.s = "https://purebasic.com"
Define *mem
Define html.s

*mem = ReceiveHTTPMemory(url)

If *mem
  html = PeekS(*mem, MemorySize(*mem), #PB_UTF8)
  FreeMemory(*mem)
  
  Debug "TITLE : " + GetTitle(html)
  
  ParseHTML(html)
Else
  Debug "Erreur téléchargement"
EndIf

C'est pas mal mais volontairement pas assez robuste pour montrer le principe.
Pourquoi pas assez robuste ? Ce code simple fonctionne par exemple avec name="description" mais fonctionnera pas avec name = "description"

falsam · Message par **falsam** » mer. 11/mars/2026 16:08

Une version un peu plus robuste. La procédure GetAttribute(tag.s, attribute.s) est modifiée.

■ Elle gère correctement :
name="description"
name = "description"
name='description'
name=description
et évite les faux positifs (data-name, itemname, etc.)

Code : Tout sélectionner

;Voici un mini parser HTML simple mais très pratique  pour récupérer rapidement :
; .<title>
; .les balises <meta>
; .Les liens <a>
; .Les images <img>

;Le principe : on parcourt les balises < > et on extrait leurs attributs.

; Récupérer un attribut HTML
Procedure.s GetAttribute(tag.s, attribute.s)
  Protected pos, i, c.s
  Protected valueStart, valueEnd
  Protected quote.s
  
  pos = FindString(LCase(tag), LCase(attribute), 1)
  If pos = 0
    ProcedureReturn ""
  EndIf
  
  ; vérifier que ce n'est pas une sous-chaîne (ex: data-name)
  If pos > 1
    c = Mid(tag, pos-1, 1)
    If FindString("abcdefghijklmnopqrstuvwxyz-", LCase(c), 1)
      ProcedureReturn ""
    EndIf
  EndIf
  
  ; trouver =
  pos = FindString(tag, "=", pos)
  If pos = 0
    ProcedureReturn ""
  EndIf
  
  i = pos + 1
  
  ; ignorer les espaces
  While Mid(tag, i, 1) = " "
    i + 1
  Wend
  
  c = Mid(tag, i, 1)
  
  ; valeur entre guillemets
  If c = Chr(34) Or c = "'"
    
    quote = c
    valueStart = i + 1
    valueEnd = FindString(tag, quote, valueStart)
    
    If valueEnd
      ProcedureReturn Mid(tag, valueStart, valueEnd - valueStart)
    EndIf
    
  Else
    
    ; valeur sans guillemets
    valueStart = i
    
    While i <= Len(tag)
      
      c = Mid(tag, i, 1)
      
      If c = " " Or c = ">"
        valueEnd = i
        Break
      EndIf
      
      i + 1
      
    Wend  
    ProcedureReturn Mid(tag, valueStart, valueEnd - valueStart)
  EndIf
  
  ProcedureReturn ""
EndProcedure

; Parser HTML simple
Procedure ParseHTML(html.s)
  Protected pos1, pos2
  Protected tag.s
  
  pos1 = 1
  
  While pos1
  
    pos1 = FindString(html, "<", pos1)
    If pos1 = 0 : Break : EndIf
    
    pos2 = FindString(html, ">", pos1)
    If pos2 = 0 : Break : EndIf
    
    tag = Mid(html, pos1+1, pos2-pos1-1)
    
    ; ----- META DESCRIPTION -----
    If FindString(tag, "meta", 1, #PB_String_NoCase)
      
      If LCase(GetAttribute(tag,"name")) = "description"
        Debug "Description : " + GetAttribute(tag,"content")
      EndIf
      
      If LCase(GetAttribute(tag,"name")) = "title"
        Debug "title : " + GetAttribute(tag,"content")
      EndIf
      
    EndIf
    
    ; ----- LIENS -----
    If Left(LCase(tag),1) = "a"
      If GetAttribute(tag,"href") <> ""
        Debug "Lien : " + GetAttribute(tag,"href")
      EndIf
    EndIf
    
    ; ----- IMAGES -----
    If FindString(tag, "img", 1, #PB_String_NoCase)
      Debug "Image : " + GetAttribute(tag,"src")
    EndIf
    
    pos1 = pos2 + 1
  Wend
EndProcedure

; Extraction du TITLE quand il se trouve dans une balise <title>
Procedure.s GetTitle(html.s)
  Protected pos1, pos2
  
  pos1 = FindString(html, "<title>",1,#PB_String_NoCase)
  
  If pos1
    pos1 + 7
    pos2 = FindString(html, "</title>",pos1,#PB_String_NoCase)
    
    If pos2
      ProcedureReturn Mid(html,pos1,pos2-pos1)
    EndIf
  EndIf
  
  ProcedureReturn ""
EndProcedure

;-
;- Zone de test
;-
Define url.s = "https://falsam.com"
Define *mem
Define html.s

*mem = ReceiveHTTPMemory(url)

If *mem
  html = PeekS(*mem, MemorySize(*mem), #PB_UTF8)
  FreeMemory(*mem)
  
  Debug "TITLE : " + GetTitle(html)
  
  ParseHTML(html)
Else
  Debug "Erreur téléchargement"
EndIf

Un peu plus de détail sur ton projet. un outil SEO ?

Myrville · Message par **Myrville** » mer. 11/mars/2026 22:42

boddhi a écrit : mar. 10/mars/2026 22:53 En effet, la bibliothèque RegularExpression ne gère pas correctement les caractères Unicode codés sur plus de deux octets et plus particulièrement la fonction RegularExpressionMatchLength().
Le recours à cette bibliothèque pour l'analyse des balises HTML se révèle des plus pertinents dès lors que l'on est certain de ne pas être confronté à cette problématique sinon, à moins d'une alternative que j'ignore, il convient de passer par une gestion purement textuelle, ce qui est plus chiant.

Je ne sais pas quel est ton but précis mais ci-dessous un petit exemple qui affiche les sections et sous-sections du forum PB anglais :

Code : Tout sélectionner

EnableExplicit
; ╔═════════════════════════════════════════════════════════════════════════════╗
; ║ STRUCTURES - ENUMERATIONS - CONSTANTES - MACROS - MAPS - VARIABLES GLOBALES ║
; ╚═════════════════════════════════════════════════════════════════════════════╝
;{ ════  ENUMERATIONS        ════
;- ════  ENUMERATIONS
Enumeration RegEx
  #REGEX_HTMLBAL
  #REGEX_CSID
EndEnumeration
;}
;{ ════  CONSTANTES          ════
;- ════  CONSTANTES
#HTML_REGEXHTMLBAL="</?\w+:?\w*((\s+(\w+-?+)+:?\w?+(\s*=\s*(?:"+#DQUOTE$+".*?"+#DQUOTE$+"|'.*?'|[^'"+#DQUOTE$+">\s]+))?)+\s*|\s*)/?>"
#HTML_REGEXCSID="(?i)-[\d\w]{8}(-[\d\w]{4}){3}-[\d\w]{12}$"
;}
;-══════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════
; ╔════════════╗
; ║ PROCEDURES ║
; ╚════════════╝
Procedure.s Fc_Recuperation_DonneesHTMLRequeteHTTP(ArgRequeteHTTP.s,ArgMode=#PB_UTF8)
  Protected.i IDRequeteHTTP
  Protected.s TitreMSG="Requête HTTP",Statut,TexteHTML

  IDRequeteHTTP=HTTPRequest(#PB_HTTP_Get,ArgRequeteHTTP)
  If IDRequeteHTTP
    Statut=HTTPInfo(IDRequeteHTTP,#PB_HTTP_StatusCode)
    If Statut="200"
      TexteHTML=HTTPInfo(IDRequeteHTTP,#PB_HTTP_Response,ArgMode)
      FinishHTTP(IDRequeteHTTP)
      ProcedureReturn TexteHTML
    ElseIf Statut<>"0" And Statut<>"404"
      MessageRequester(TitreMSG,UnescapeString("Erreur lors du retour de la requête :\n\nCode : "+Statut+"\n\n"+ArgRequeteHTTP),#PB_MessageRequester_Error)
    EndIf
  Else
    MessageRequester(TitreMSG,UnescapeString("Echec de la requête\n\n"+ArgRequeteHTTP),#PB_MessageRequester_Error)
  EndIf
EndProcedure
Procedure   Pc_Recuperation_DonneesChaineHTML_ListeSectionsForum(ArgChaineHTML.s)
  ;{ Variables obligatoires
  Protected.i AncPosition=1         ; Position précédente dans la variable TexteFichier
  Protected.i NouvPosition          ; Position actuelle dans la variable TexteFichier après appel RegEx
  Protected.i LongChaine            ; Longueur de la chaine textuelle entre deux balises
  Protected.a Commentaire           ; Commentaire HTML en cours de traitement (Booléen)
  Protected.s ChaineHTML            ; Contenu balise HTML ou Contenu entre deux balises
  Protected.s ChaineHTMLModifiee    ; ChaineFichier expurgée des espaces
  ;}
  Protected.a BaliseTableTrouvee
  Protected.a BaliseSectionForumTrouvee
  Protected.a BaliseTitreSectionTrouvee
  Protected.a BaliseForumTrouvee
  Protected.a BaliseDetailsForumTrouvee
  Protected.a BaliseTitreForum
  Protected.a NoLigneInformation
  
  CreateRegularExpression(#REGEX_CSID,#HTML_REGEXCSID,#PB_RegularExpression_NoCase)
  ; Suppression des LF, CR & TAB
  CompilerIf #PB_Compiler_Version<=630
    ReplaceString(ArgChaineHTML,Chr(10)," ",#PB_String_InPlace)
    ReplaceString(ArgChaineHTML,Chr(13)," ",#PB_String_InPlace)
    ReplaceString(ArgChaineHTML,Chr(9)," ",#PB_String_InPlace)
  CompilerElse
    ArgChaineHTML=ReplaceString(ReplaceString(ReplaceString(ArgChaineHTML,Chr(10)," "),Chr(13)," "),Chr(9)," ")
  CompilerEndIf
  ArgChaineHTML=Trim(ArgChaineHTML)
  ; Test entête fichier HTML
  If UCase(Left(ArgChaineHTML,15))<>"<!DOCTYPE HTML>"                                       ; ← A adapter en fonction de l'entête de la page HTML
    MessageRequester("Analyse Balises et attributs HTML","Le fichier ne semble pas être un fichier HTML",#PB_MessageRequester_Error)
    ProcedureReturn
  EndIf
  ; Boucle lecture des balises
  If CreateRegularExpression(#REGEX_HTMLBAL,#HTML_REGEXHTMLBAL)
    If ExamineRegularExpression(#REGEX_HTMLBAL,ArgChaineHTML)
      While NextRegularExpressionMatch(#REGEX_HTMLBAL)
        NouvPosition=RegularExpressionMatchPosition(#REGEX_HTMLBAL)

        ; Analyse du contenu entre deux balises ou commentaires HTML "<!-- blabla -->"
        If AncPosition<>NouvPosition                                                                  ; Texte ou commentaire
          LongChaine=NouvPosition-AncPosition
          ChaineHTML=Mid(ArgChaineHTML,AncPosition,LongChaine)                                        ; ATTENTION : Ajout de +1 pour compenser un caractère Unicode dans l'en-tête
          If Left(LTrim(ChaineHTML),4)="<!--"                                                         ; Balise début commentaire
            If Right(RTrim(ChaineHTML),3)<>"-->"                                                      ; Commentaire encadrant:"<!-- blabla > <blabla> blabla <!-->"
              Commentaire=#True
            EndIf
          ElseIf Right(RTrim(ChaineHTML),3)="-->"                                                     ; Balise fin commentaire encadrant
            Commentaire=#False
          ElseIf BaliseTableTrouvee
            If BaliseTitreSectionTrouvee
              Debug "Section du forum : "+ChaineHTML
              BaliseSectionForumTrouvee=#False:BaliseTitreSectionTrouvee=#False                       ; On n'a plus besoin pour le moment de ces balises
            ElseIf BaliseTitreForum
              ChaineHTML=Trim(ChaineHTML)
              If ChaineHTML
                Select NoLigneInformation
                  Case 0
                    Debug "  Titre du forum : "+ChaineHTML
                    NoLigneInformation+1
                  Case 1
                    Debug "    Description du forum : "+ChaineHTML
                    NoLigneInformation=0
                    BaliseTitreForum=#False                                                           ; On n'a plus besoin pour le moment de cette balise et on s'évite ainsi des tests ultérieurs inutiles
                EndSelect
              EndIf
            EndIf
          EndIf
        EndIf
        ; Analyse balise HTML
        LongChaine=RegularExpressionMatchLength(#REGEX_HTMLBAL)
        ChaineHTML=RegularExpressionMatchString(#REGEX_HTMLBAL)
        If Left(ChaineHTML,19)="<div id="+Chr(34)+"page-body"+Chr(34)                                 ; Balise table sections forum
          BaliseTableTrouvee=#True
        ElseIf BaliseTableTrouvee
          If ChaineHTML="</ul>"                                                                       ; Balise fin section forum
          ElseIf ChaineHTML="<ul class="+Chr(34)+"topiclist"+Chr(34)+">"                              ; Balise section forum
            BaliseSectionForumTrouvee=#True
          ElseIf BaliseSectionForumTrouvee
            If Left(ChaineHTML,27)="<a href="+Chr(34)+"./viewforum.php?f="                            ; Balise lien hypertexte section comportant le nom de la section
              BaliseTitreSectionTrouvee=#True
            EndIf
          ElseIf ChaineHTML="<ul class="+Chr(34)+"topiclist forums"+Chr(34)+">"                       ; Balise section forum
            BaliseForumTrouvee=#True
          ElseIf BaliseForumTrouvee
            If ChaineHTML="<dl class="+Chr(34)+"row-item forum_read"+Chr(34)+">"
              BaliseDetailsForumTrouvee=#True
            ElseIf BaliseDetailsForumTrouvee
              If Left(ChaineHTML,27)="<a href="+Chr(34)+"./viewforum.php?f="
                BaliseTitreForum=#True
              EndIf
            EndIf
          ElseIf ChaineHTML="<form method="+Chr(34)+"post" +Chr(34)+"action="+Chr(34)+"./ucp.php?mode=login" +Chr(34)+"class="+Chr(34)+"headerspace panel"+Chr(34)+">"
            ; On n'a pas besoin d'analyser plus loin
            Break
          EndIf
        EndIf
        AncPosition=NouvPosition+LongChaine
      Wend
    EndIf
  EndIf
EndProcedure
;
Define.s ChaineHTMML=Fc_Recuperation_DonneesHTMLRequeteHTTP("https://www.purebasic.fr/english/index.php")
If ChaineHTMML
  Pc_Recuperation_DonneesChaineHTML_ListeSectionsForum(ChaineHTMML)
EndIf

cc boddhi,

Merci pour l’exemple de code, je l'ai observé de près et je trouve que c’est instructif de voir comment tu structures l’analyse des balises avec les expressions régulières et la gestion des différentes sections.
Je vois mieux la logique quand on veut parcourir toute la structure d’une page et récupérer des éléments précis. Dans mon cas je vais probablement commencer plus simple, mais ton exemple me donne déjà une bonne idée de la manière dont on peut organiser ce type de traitement.
merci aussi pour la précision sur les limitations Unicode de la bibliothèque, c’est ce genre de détail qui peut éviter pas mal de surprises.

Myrville · Message par **Myrville** » mer. 11/mars/2026 22:45

falsam a écrit : mer. 11/mars/2026 15:51 Une solution sans regex.

Un mini parser HTML simple mais très pratique pour récupérer rapidement :
.<title>
.les balises <meta>
.Les liens <a>
.Les images <img>

Le principe : on parcourt les balises < > et on extrait leurs attributs.

Code : Tout sélectionner

;Voici un mini parser HTML simple mais très pratique  pour récupérer rapidement :
; .<title>
; .les balises <meta>
; .Les liens <a>
; .Les images <img>

;Le principe : on parcourt les balises < > et on extrait leurs attributs.

; Récupérer un attribut HTML
Procedure.s GetAttribute(tag.s, attribute.s)
  Protected pos, pos2
  Protected quote.s = Chr(34)
  
  pos = FindString(tag, attribute + "=" + quote, 1, #PB_String_NoCase)
  
  If pos
    pos + Len(attribute + "=" + quote)
    pos2 = FindString(tag, quote, pos)
    
    If pos2
      ProcedureReturn Mid(tag, pos, pos2-pos)
    EndIf
  EndIf
  ProcedureReturn ""
EndProcedure

; Parser HTML simple
Procedure ParseHTML(html.s)
  Protected pos1, pos2
  Protected tag.s
  
  pos1 = 1
  
  While pos1
  
    pos1 = FindString(html, "<", pos1)
    If pos1 = 0 : Break : EndIf
    
    pos2 = FindString(html, ">", pos1)
    If pos2 = 0 : Break : EndIf
    
    tag = Mid(html, pos1+1, pos2-pos1-1)
    
    ; ----- META DESCRIPTION -----
    If FindString(tag, "meta", 1, #PB_String_NoCase)
      
      If LCase(GetAttribute(tag,"name")) = "description"
        Debug "Description : " + GetAttribute(tag,"content")
      EndIf
      
      If LCase(GetAttribute(tag,"name")) = "title"
        Debug "title : " + GetAttribute(tag,"content")
      EndIf
      
    EndIf
    
    ; ----- LIENS -----
    If Left(LCase(tag),1) = "a"
      If GetAttribute(tag,"href") <> ""
        Debug "Lien : " + GetAttribute(tag,"href")
      EndIf
    EndIf
    
    ; ----- IMAGES -----
    If FindString(tag, "img", 1, #PB_String_NoCase)
      
      Debug "Image : " + GetAttribute(tag,"src")
      
    EndIf
    
    pos1 = pos2 + 1
    
  Wend
EndProcedure

; Extraction du TITLE quand il se trouve dans une balise <title>
Procedure.s GetTitle(html.s)
  Protected pos1, pos2
  
  pos1 = FindString(html, "<title>",1,#PB_String_NoCase)
  
  If pos1
    pos1 + 7
    pos2 = FindString(html, "</title>",pos1,#PB_String_NoCase)
    
    If pos2
      ProcedureReturn Mid(html,pos1,pos2-pos1)
    EndIf
  EndIf
  
  ProcedureReturn ""
EndProcedure

;-
;- Zone de test
;-
Define url.s = "https://purebasic.com"
Define *mem
Define html.s

*mem = ReceiveHTTPMemory(url)

If *mem
  html = PeekS(*mem, MemorySize(*mem), #PB_UTF8)
  FreeMemory(*mem)
  
  Debug "TITLE : " + GetTitle(html)
  
  ParseHTML(html)
Else
  Debug "Erreur téléchargement"
EndIf

C'est pas mal mais volontairement pas assez robuste pour montrer le principe.
Pourquoi pas assez robuste ? Ce code simple fonctionne par exemple avec name="description" mais fonctionnera pas avec name = "description"

falsam merci pour l’exemple. C'est quand même intéressant l’idée du mini parser basé simplement sur le parcours des balises < >. J'y avait pas pensé. Pour récupérer des éléments comme les liens, les images ou les meta çà va être rapide à mettre en place.
Ton approche pour extraire directement les attributs est assez lisible pour comprendre le principe.

Myrville · Message par **Myrville** » mer. 11/mars/2026 22:48

falsam j'avais déjà mis ma réponse précédente avant de voir ton message avec la version améliorée. La gestion des différents cas (name="...", name = "...", quotes simples, etc.) rend déjà la chose beaucoup plus solide. Je comprends mieux où peuvent apparaître les petits pièges quand on commence à parser du HTML de manière simple.
Et pour répondre à ta question, oui l’idée derrière mon petit outil est surtout d’analyser rapidement certains éléments d’une page (titres, meta, liens…) pour mes tests quand je travaille sur des sites. Rien de très gros, plutôt un utilitaire maison.
Merci en tout cas pour les exemples, ça me donne de bonnes pistes pour démarrer.

MetalOS · Message par **MetalOS** » jeu. 09/avr./2026 16:07

J'avais codé pour un amis un truc similaire. Voici le code si ca peut t'aider.

Code : Tout sélectionner

EnableExplicit

Enumeration
  #WinMain
  #EditorResult
  #StringURL
  #BtnAnalyze
EndEnumeration

Structure TagCount
  name.s
  count.i
EndStructure

Global NewList Counts.TagCount()

;------------------------------------------
; Outils texte
;------------------------------------------
Procedure.s StripTags(Text.s)
  Protected rx, result.s = Text
  
  rx = CreateRegularExpression(#PB_Any, "<[^>]+>", #PB_RegularExpression_NoCase | #PB_RegularExpression_DotAll)
  If rx
    result = ReplaceRegularExpression(rx, result, "")
    FreeRegularExpression(rx)
  EndIf
  
  result = ReplaceString(result, "&nbsp;", " ")
  result = ReplaceString(result, "&amp;", "&")
  result = ReplaceString(result, "&quot;", Chr(34))
  result = ReplaceString(result, "&lt;", "<")
  result = ReplaceString(result, "&gt;", ">")
  
  ; nettoyage simple des espaces
  While FindString(result, "  ")
    result = ReplaceString(result, "  ", " ")
  Wend
  
  ProcedureReturn Trim(result)
EndProcedure

Procedure.s DownloadHTML(URL.s)
  Protected *Buffer, html.s, size
  
  *Buffer = ReceiveHTTPMemory(URL)
  If *Buffer = 0
    ProcedureReturn ""
  EndIf
  
  size = MemorySize(*Buffer)
  If size > 0
    html = PeekS(*Buffer, size, #PB_UTF8 | #PB_ByteLength)
  EndIf
  
  FreeMemory(*Buffer)
  ProcedureReturn html
EndProcedure

Procedure.i CountMatches(Text.s, Pattern.s)
  Protected rx, n = 0
  
  rx = CreateRegularExpression(#PB_Any, Pattern, #PB_RegularExpression_NoCase | #PB_RegularExpression_DotAll)
  If rx
    If ExamineRegularExpression(rx, Text)
      While NextRegularExpressionMatch(rx)
        n + 1
      Wend
    EndIf
    FreeRegularExpression(rx)
  EndIf
  
  ProcedureReturn n
EndProcedure

Procedure.s ExtractFirstGroup(Text.s, Pattern.s)
  Protected rx, result.s = ""
  
  rx = CreateRegularExpression(#PB_Any, Pattern, #PB_RegularExpression_NoCase | #PB_RegularExpression_DotAll)
  If rx
    If ExamineRegularExpression(rx, Text)
      If NextRegularExpressionMatch(rx)
        result = RegularExpressionGroup(rx, 1)
      EndIf
    EndIf
    FreeRegularExpression(rx)
  EndIf
  
  ProcedureReturn result
EndProcedure

Procedure.s ExtractHeadings(Text.s)
  Protected rx, result.s = "", level.s, content.s
  
  rx = CreateRegularExpression(#PB_Any, "<h([1-6])[^>]*>(.*?)</h\1>", #PB_RegularExpression_NoCase | #PB_RegularExpression_DotAll)
  If rx
    If ExamineRegularExpression(rx, Text)
      While NextRegularExpressionMatch(rx)
        level = RegularExpressionGroup(rx, 1)
        content = StripTags(RegularExpressionGroup(rx, 2))
        If content <> ""
          result + "H" + level + " : " + content + #CRLF$
        EndIf
      Wend
    EndIf
    FreeRegularExpression(rx)
  EndIf
  
  If result = ""
    result = "(aucun titre H1-H6 trouvé)" + #CRLF$
  EndIf
  
  ProcedureReturn result
EndProcedure

Procedure BuildCounts(Text.s)
  ClearList(Counts())
  
  AddElement(Counts()) : Counts()\name = "div"      : Counts()\count = CountMatches(Text, "<div\b")
  AddElement(Counts()) : Counts()\name = "section"  : Counts()\count = CountMatches(Text, "<section\b")
  AddElement(Counts()) : Counts()\name = "article"  : Counts()\count = CountMatches(Text, "<article\b")
  AddElement(Counts()) : Counts()\name = "header"   : Counts()\count = CountMatches(Text, "<header\b")
  AddElement(Counts()) : Counts()\name = "footer"   : Counts()\count = CountMatches(Text, "<footer\b")
  AddElement(Counts()) : Counts()\name = "nav"      : Counts()\count = CountMatches(Text, "<nav\b")
  AddElement(Counts()) : Counts()\name = "main"     : Counts()\count = CountMatches(Text, "<main\b")
  AddElement(Counts()) : Counts()\name = "p"        : Counts()\count = CountMatches(Text, "<p\b")
  AddElement(Counts()) : Counts()\name = "a"        : Counts()\count = CountMatches(Text, "<a\b")
  AddElement(Counts()) : Counts()\name = "img"      : Counts()\count = CountMatches(Text, "<img\b")
  AddElement(Counts()) : Counts()\name = "ul"       : Counts()\count = CountMatches(Text, "<ul\b")
  AddElement(Counts()) : Counts()\name = "li"       : Counts()\count = CountMatches(Text, "<li\b")
  AddElement(Counts()) : Counts()\name = "table"    : Counts()\count = CountMatches(Text, "<table\b")
  AddElement(Counts()) : Counts()\name = "form"     : Counts()\count = CountMatches(Text, "<form\b")
EndProcedure

Procedure.s GetCountsReport()
  Protected report.s = "", totalHeadings
  
  ForEach Counts()
    report + RSet(Counts()\name, 10, " ") + " : " + Str(Counts()\count) + #CRLF$
  Next
  
  totalHeadings = CountMatches(GetGadgetText(#EditorResult), "H[1-6]\s:")
  
  ProcedureReturn report
EndProcedure

Procedure.s AnalyzeHTML(URL.s)
  Protected html.s, title.s, headings.s, report.s, metaDesc.s
  
  html = DownloadHTML(URL)
  If html = ""
    ProcedureReturn "Erreur : impossible de télécharger la page."
  EndIf
  
  title = StripTags(ExtractFirstGroup(html, "<title[^>]*>(.*?)</title>"))
  If title = ""
    title = "(aucun title trouvé)"
  EndIf
  
  metaDesc = ExtractFirstGroup(html, "<meta[^>]+name\s*=\s*[" + Chr(34) + "']description[" + Chr(34) + "'][^>]+content\s*=\s*[" + Chr(34) + "'](.*?)[" + Chr(34) + "']")
  If metaDesc = ""
    ; variante si content arrive avant name
    metaDesc = ExtractFirstGroup(html, "<meta[^>]+content\s*=\s*[" + Chr(34) + "'](.*?)[" + Chr(34) + "'][^>]+name\s*=\s*[" + Chr(34) + "']description[" + Chr(34) + "']")
  EndIf
  
  headings = ExtractHeadings(html)
  BuildCounts(html)
  
  report = "Analyse de la page : " + URL + #CRLF$ + #CRLF$
  report + "TITLE" + #CRLF$
  report + "-----" + #CRLF$
  report + title + #CRLF$ + #CRLF$
  
  report + "META DESCRIPTION" + #CRLF$
  report + "----------------" + #CRLF$
  If metaDesc <> ""
    report + StripTags(metaDesc) + #CRLF$ + #CRLF$
  Else
    report + "(aucune meta description trouvée)" + #CRLF$ + #CRLF$
  EndIf
  
  report + "TITRES H1 à H6" + #CRLF$
  report + "-------------" + #CRLF$
  report + headings + #CRLF$
  
  report + "STRUCTURE HTML" + #CRLF$
  report + "--------------" + #CRLF$
  report + GetCountsReport() + #CRLF$
  
  report + "TAILLE HTML" + #CRLF$
  report + "----------" + #CRLF$
  report + Str(StringByteLength(html, #PB_UTF8)) + " octets environ" + #CRLF$
  
  ProcedureReturn report
EndProcedure

;------------------------------------------
; Interface
;------------------------------------------
If OpenWindow(#WinMain, 0, 0, 900, 650, "Analyseur HTML", #PB_Window_SystemMenu | #PB_Window_ScreenCentered)
  
  StringGadget(#StringURL, 10, 10, 700, 28, "https://example.com")
  ButtonGadget(#BtnAnalyze, 720, 10, 170, 28, "Analyser la page")
  EditorGadget(#EditorResult, 10, 50, 880, 590)
  
  SetGadgetText(#EditorResult, "Entrez une URL puis cliquez sur 'Analyser la page'.")
  
 Define url.s

Repeat
  Select WaitWindowEvent()
    Case #PB_Event_CloseWindow
      Break
      
    Case #PB_Event_Gadget
      Select EventGadget()
        Case #BtnAnalyze
          url = Trim(GetGadgetText(#StringURL))
          If url <> ""
            SetGadgetText(#EditorResult, "Téléchargement et analyse en cours..." + #CRLF$)
            SetGadgetText(#EditorResult, AnalyzeHTML(url))
          Else
            SetGadgetText(#EditorResult, "Veuillez saisir une URL valide.")
          EndIf
      EndSelect
  EndSelect
ForEver
  
EndIf

PureBasic

Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?

Re: Petit outil pour analyser rapidement le contenu HTML d’une page web : vous feriez comment en PureBasic ?