webseite crawlen (cURL?)

PiZzA · 14.12.2009

Hi, ich würde mich gerne auf ne HP einloggen (www.eplus.de) und von dort aus dann bei einigen hyperlinks infos crawlen... hab gelesen dass cURL dazu geeignet sei aber bekomms absolut nei hin (hab die cli version installiert webseiten anwählen geht ja aber beim einloggen + crawlen habsch kp) also will im endeffekt teile der hp dann in ne txt datei speicher die auswertung mach ich dann in c / c# / c++ oder einfach in vba mal guggn... wäre top wenn mir jmd helfen könnte danke

doveR · 14.12.2009

in welcher sprache willst du den html code auslesen? du findest wohl für alle drölf beispielcodes im netz.

curl / php: http://de.php.net/manual/de/ref.curl.php

PiZzA · 14.12.2009

es ist mir relativ egal in welcher sprache des geht - ich will nur dass es schnell und einfach geht, und mit relativ wenig aufwand verbunden ist, da ich zZ noch an einem größeren c++ projekt sitze (bachelorarbeit) und keinen bock habe mich groß in ne neue sprache einzulesen...

was würdets du mir empfehlen?

bog · 14.12.2009

einfacher als mit php kriegt man es wohl kaum hin.

Sanni · 16.12.2009

Jo, PHP ist da ziemlich stark drin:

PHP:

function cURL($URL, $post = FALSE) {
    $ch = curl_init();
        curl_setopt($ch, CURLOPT_URL, $URL);
        curl_setopt($ch, CURLOPT_RETURNTRANSFER, TRUE);
        curl_setopt($ch, CURLOPT_HEADER, FALSE);
        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, FALSE);
        curl_setopt($ch, CURLOPT_AUTOREFERER, FALSE);
        curl_setopt($ch, CURLOPT_COOKIEFILE, "cookie.txt");
        curl_setopt($ch, CURLOPT_COOKIEJAR, "cookie.txt");
        curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/5.0 (Windows; U; Windows NT 6.0; de; rv:1.9.0.11) Gecko/2009060215 Firefox/3.0.11");
        if ($post !== FALSE) {
            curl_setopt($ch, CURLOPT_POST, TRUE);
            curl_setopt($ch, CURLOPT_POSTFIELDS, $post);
        } else {
            curl_setopt($ch, CURLOPT_POST, FALSE);
        }
    return curl_exec($ch);
    curl_close($ch);
}

$ausgabe = cURL("https://sso.eplus.de/amserver/UI/Login?module=EccLDAP&realm=web", "IDToken1=DEINNICK&IDToken2=DEINPW");

Ich glaube, das müsst so gehen (hab es nicht getestet[wegen dem SSL bin ich mir net ganz sicher)).
Jedenfalls ist das das Script zum Login, so schreibt cURL jeden empfangen Cookies in die Datei cookie.txt (CHMOD 777). Rufst du also noch einmal die Seite mit der cURL-Funktion auf, empfängt er den Quellecode als wärst du eingeloggt.

Nun musst du halt nocheinmal die URL aufrufen von der du crawlen willst, den Quellecode nehmen (der steht in der variable $ausgabe(string)) und per preg_match zerfetzen.

PiZzA · 23.12.2009

http://paste.bradleygill.com/index.php?paste_id=26765

sers, habs mal so versucht... mit allen möglichen veriationen aber wenn ich nun versuche ausgabe 2 oder ausgabe bis zeile 28 auszugeben dann will er nicht

wenn ich aber verusche ausgabe3 oder ausgabe in zeile 29 auszugeben dann will er weißt du wieso?? wäre top danke!!

Sanni · 23.12.2009

Wird höchst wahrscheinlich an https:// liegen. Daher musst du SSL Zertifikat noch mitsenden, wie das geht musst du wohl oder übel auf http://www.php.net/manual/de/function.curl-setopt.php selbst nachforschen da ich das auch noch nie gemacht habe.

webseite crawlen (cURL?)

PiZzA

doveR

PiZzA

bog

Sanni

PiZzA

Sanni