Aktuelle Zeit: 09.07.2020 11:52

Alle Zeiten sind UTC + 1 Stunde [ Sommerzeit ]




Ein neues Thema erstellen Auf das Thema antworten  [ 3 Beiträge ] 
Autor Nachricht
 Betreff des Beitrags: Wie gerendertes HTML ohne WebGadget catchen
BeitragVerfasst: 17.11.2019 18:18 
Offline
Benutzeravatar

Registriert: 25.04.2006 17:29
Wohnort: Nähe Hamburg
Hallo Kollegen,

ich hatte bereits vor einiger Zeit ein ähnliches Problem (siehe hier) bei dem es um die Extraktion des HTML Quellcodes einer im WebGadget angezeigten Webseite ging.

Aktuell versuche ich quasi das gleiche, doch die betreffende Seite stellt mich vor folgende Hürden:

a) Sie wird im WebGadget nicht korrekt gerendert (Skriptfehler). Das WebGadget kann daher nicht verwendet werden.
b) Die Werte, die ich extrahieren möchte, sind im mittels (PB-)HTTPRequest angeforderten HTML Quellcode nicht enthalten.

Ich kann die betreffenden Werte jedoch sowohl im Browser (hier ein Google Chrome Derivat) auf der gerenderten Seite sehen, als auch mit den Developer Tools des Browsers, wenn ich auf das gesuchte Element ein Rechtsklick ausführe und "untersuchen" auswähle.

Wenn ich im Browser "Seitenquelltext anzeigen" auswähle und diesen dann durchsuche, dann sind diese Werte nicht dabei.

Leider kann ich euch die Seite (URL) aus Datenschutzgründen hier nicht nennen (man benötigt auch einen Mitarbeiter-login, um die betreffenden Seiten aufzurufen). Dummerweise habe ich in freier Wildbahn auch noch keine ähnliche Seite gefunden, an der das nachvollziehbar wäre. Ich suche aber weiter.

Die eigentliche Frage ist: Wie kommt man an die gesuchten Daten, die offenbar nur mit den Developer Tools des Browsers einsehbar sind?
Ich bin hier auch für Ansätze in PHP, JavaScript oder Einsatz von externen Commandline-Programmen offen. Eigentlich brauche ich nur einen kleinen Wink in die richtige Richtung. Es sollte unter Windows 7/10 laufen oder halt komplett im Browser (JavaScript, PHP).

Gruß
Kurzer

PS: Mist, das sollte eigentlich in der Rubrik "Allgemein" landen, nicht in "Anfänger".

_________________
"Never run a changing system!"
PB 5.72 x64, OS: Windows 7 Pro x64, Desktopscaling: 125%, CPU: I7 6500, RAM: 16 GB, GPU: Intel Graphics HD 520
Ich bin Baujahr 1968, also aktuell 52.


Nach oben
 Profil  
Mit Zitat antworten  
 Betreff des Beitrags: Re: Wie gerendertes HTML ohne WebGadget catchen
BeitragVerfasst: 17.11.2019 19:09 
Offline
Benutzeravatar

Registriert: 28.07.2005 12:39
Was du suchst ist so etwas wie PhantomJS.

Aber ich wuerde erst einmal sehen, woher diese Daten kommen. Wenn sie einfach nachgeladen werden, solltest du dir mal den Datenverkehr im Browser ansehen. Gut moeglich das sie einfach per xmlhttprequest reinkommen, das laesst sich dann sehr einfach mit PB nachbauen.

Viel Erfolg.

_________________
Suche


Nach oben
 Profil  
Mit Zitat antworten  
 Betreff des Beitrags: Re: Wie gerendertes HTML ohne WebGadget catchen
BeitragVerfasst: 17.11.2019 21:37 
Offline
Benutzeravatar

Registriert: 25.04.2006 17:29
Wohnort: Nähe Hamburg
Vielen Dank für den Hinweis mit dem Beobachten des Datenverkehrs. :allright:
Da wird unter anderem eine ".../search?tags=a,b,c,d..." Seite aufgerufen die dann Content generiert mit dem ich wieder mehr anfangen kann.

Von da aus muss ich mich mit parsen und weiteren generierten Seiten durch hangeln. Letztendlich kommen die Werte in der Tat in einer XML Struktur in die Seite, wie mein "Reverse engineering" gezeigt hat.

Bild

Ich denke, dass mir das so ausreicht.

Gruß Kurzer

_________________
"Never run a changing system!"
PB 5.72 x64, OS: Windows 7 Pro x64, Desktopscaling: 125%, CPU: I7 6500, RAM: 16 GB, GPU: Intel Graphics HD 520
Ich bin Baujahr 1968, also aktuell 52.


Nach oben
 Profil  
Mit Zitat antworten  
Beiträge der letzten Zeit anzeigen:  Sortiere nach  
Ein neues Thema erstellen Auf das Thema antworten  [ 3 Beiträge ] 

Alle Zeiten sind UTC + 1 Stunde [ Sommerzeit ]


Wer ist online?

Mitglieder in diesem Forum: Majestic-12 [Bot] und 10 Gäste


Sie dürfen keine neuen Themen in diesem Forum erstellen.
Sie dürfen keine Antworten zu Themen in diesem Forum erstellen.
Sie dürfen Ihre Beiträge in diesem Forum nicht ändern.
Sie dürfen Ihre Beiträge in diesem Forum nicht löschen.

Suche nach:
Gehe zu:  

 


Powered by phpBB © 2008 phpBB Group | Deutsche Übersetzung durch phpBB.de
subSilver+ theme by Canver Software, sponsor Sanal Modifiye