• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

webseite crawlen (cURL?)

Mitglied seit
08.07.2001
Beiträge
1.625
Reaktionen
0
Hi, ich würde mich gerne auf ne HP einloggen (www.eplus.de) und von dort aus dann bei einigen hyperlinks infos crawlen... hab gelesen dass cURL dazu geeignet sei aber bekomms absolut nei hin (hab die cli version installiert webseiten anwählen geht ja aber beim einloggen + crawlen habsch kp) also will im endeffekt teile der hp dann in ne txt datei speicher die auswertung mach ich dann in c / c# / c++ oder einfach in vba mal guggn... wäre top wenn mir jmd helfen könnte danke ;)
 
Mitglied seit
08.07.2001
Beiträge
1.625
Reaktionen
0
es ist mir relativ egal in welcher sprache des geht - ich will nur dass es schnell und einfach geht, und mit relativ wenig aufwand verbunden ist, da ich zZ noch an einem größeren c++ projekt sitze (bachelorarbeit) und keinen bock habe mich groß in ne neue sprache einzulesen...

was würdets du mir empfehlen?
 
Mitglied seit
05.04.2004
Beiträge
17
Reaktionen
0
Jo, PHP ist da ziemlich stark drin:
PHP:
function cURL($URL, $post = FALSE) {
    $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $URL);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
        curl_setopt($ch, CURLOPT_HEADER, FALSE);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, FALSE);
        curl_setopt($ch, CURLOPT_AUTOREFERER, FALSE);
        curl_setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt");
        curl_setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt");
        curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 6.0; de; rv:1.9.0.11) Gecko/2009060215 Firefox/3.0.11");
        if ($post !== FALSE) {
            curl_setopt($ch, CURLOPT_POST, TRUE);
            curl_setopt($ch, CURLOPT_POSTFIELDS, $post);
        } else {
            curl_setopt($ch, CURLOPT_POST, FALSE);
        }
    return curl_exec($ch);
    curl_close($ch);
}

$ausgabe = cURL("https://sso.eplus.de/amserver/UI/Login?module=EccLDAP&realm=web", "IDToken1=DEINNICK&IDToken2=DEINPW");

Ich glaube, das müsst so gehen (hab es nicht getestet[wegen dem SSL bin ich mir net ganz sicher)).
Jedenfalls ist das das Script zum Login, so schreibt cURL jeden empfangen Cookies in die Datei cookie.txt (CHMOD 777). Rufst du also noch einmal die Seite mit der cURL-Funktion auf, empfängt er den Quellecode als wärst du eingeloggt.

Nun musst du halt nocheinmal die URL aufrufen von der du crawlen willst, den Quellecode nehmen (der steht in der variable $ausgabe(string)) und per preg_match zerfetzen.
 
Zuletzt bearbeitet:
Mitglied seit
08.07.2001
Beiträge
1.625
Reaktionen
0
http://paste.bradleygill.com/index.php?paste_id=26765

sers, habs mal so versucht... mit allen möglichen veriationen aber wenn ich nun versuche ausgabe 2 oder ausgabe bis zeile 28 auszugeben dann will er nicht :(wenn ich aber verusche ausgabe3 oder ausgabe in zeile 29 auszugeben dann will er weißt du wieso?? wäre top danke!!
 
Oben