• Liebe User, bitte beachtet folgendes Thema: Was im Forum passiert, bleibt im Forum! Danke!
  • Hallo Gemeinde! Das Problem leidet zurzeit unter technischen Problemen. Wir sind da dran, aber das Zeitkontingent ist begrenzt. In der Zwischenzeit dürfte den meisten aufgefallen sein, dass das Erstellen von Posts funktioniert, auch wenn das Forum erstmal eine Fehlermeldung wirft. Um unseren Löschaufwand zu minimieren, bitten wir euch darum, nicht mehrmals auf 'Post Reply' zu klicken, da das zur Mehrfachposts führt. Grußworte.

Programmierer gesucht: Website parsen -> Excel Datei, ~1-2 Stunden Aufwand

Status
Für weitere Antworten geschlossen.
Mitglied seit
23.04.2003
Beiträge
1.252
Reaktionen
0
Ich habe hier eine HTML Datei mit Tabellen. Diese Tabelle sind folgendermaßen aufgebaut:

Code:
<table class="test" cols="2" width="70%">
<tbody><tr>
    <td colspan="2" class="heading">
        <h2><a href="test.htm">Testfirma</a></h2>

    </td>
</tr>
<tr>
    <td class="angabe">
        Firmennummer
    </td>
    <td>
        6962</td>
</tr>
<tr>
    <td class="angabe">

        Anschrift
    </td>
    <td>
        Musterstraße 2<br>
        12345 Musterstadt
    </td>
</tr>
<tr>
    <td class="angabe">
        Telefon
    </td>

    <td>
        123456789
    </td>
</tr>
<tr>
    <td class="angabe">
        Telefax
    </td>
    <td>
        1234567
    </td>

</tr>
<tr>
    <td class="angabe">
        Firmenart
    </td>
    <td>
        Computerfirma
    </td>
</tr>
<tr>
    <td class="angabe">
        E-Mail
    </td>

    <td>
        <a href="mailto:test@test.de">test@test.de</a>
    </td>
</tr>
<tr>
    <td class="angabe">
        Ansprechpartner/in
    </td>
    <td>
        <a href="mailto:Max Mustermann">Max</a>

    </td>
</tr>
<tr>
    <td class="angabe">
       Blubb
    </td>
    <td>
        <form method="post" action="/cgi-bin/plz.pl"><input value="91710" name="postleitzahl" size="5" maxlength="5" type="hidden">
        <input value="bitte hier klicken" type="submit"></form>
    </td>

</tr>
</tbody></table>

Von diesen Tabellen gibt es auf der Seite 500 Stück. Ich möchte diese nun in eine Excel Datei parsen, so dass die Daten aufgeteilt sind in:

Firmenname | Ansprechpartner | Straße | PLZ | ...

Das ganze müsste also über PHP oder Java o.ä. geparst werden. Für jemanden, der sich damit auskennt, würde das ein Aufwand von schätzungsweise ~1-2 Stunden sein. Diese Zeit würde ich natürlich auch vergüten.

Ist hier jemand, der bis Dienstag Zeit und Lust hätte den Job zu übernehmen? Details klären wir gerne per PN und dann Mail/Telefon etc.
 

RRA^StArFiRe

Guest
sind die html seiten so statisch? oder ist das dynamisch erstellt, was du hier gepostet hast?
 
Mitglied seit
23.04.2003
Beiträge
1.252
Reaktionen
0
Das wird bestimmt aus irgendeiner Datenbank erstellt, auf die ich allerdings keinen Zugriff habe. Die Seite, die ich habe ist eine statische HTML Seite auf der diese ganzen Tabellen platziert sind. Von dieser statischen HTML Seiten soll dann auch die Excel Tabelle erstellt werden.
 

cart

Technik/Software Forum
Mitglied seit
01.08.2002
Beiträge
4.873
Reaktionen
0
Ort
New York
Jungs, bitte nicht rumspammen. Danke.
 

Ebola_inaktiv

Guest
Offene Punkte

Hallo,

da würden sich für mich zur Umsetzung aber noch folgende Fragen ergeben:

- Soll das einmalig gemacht werden oder sollte die Lösung automatisierbar sein?
Sprich bei einer einmaligen/selten anzuwendende Lösung würde ich ein VBA Makro in Excel erstellen das die HTML Source Daten per copy&paste eingefügt bekommt und daraus dann direkt in Excel die geforderte Tabelle erstellt.
Der Vorteil dieser Lösung wäre:
- schnelle Umzusetzen
- die Formatierung der Tabelle könnte direkt implementiert werden.
Nachteil:
- zu zeitaufwendig bei häufiger Anwendung

Die umfassendere Lösung wäre eine Java Anwendung mit Swing GUI.
Die Bedienung sähe zb so aus das die URL eingegeben wird, daraus die benötigten Daten geparst werden und ein beliebiges Ausgabeformat implementiert würde. Die Daten von Java als Excel-Tabelle zu speichern ist deutlich aufwendiger als diese als csv-Datei zu speichern und in Excel einzulesen.
Vorteil:
-automatisierbar
-besser erweiterbar
-deutlich einfacherer und schnellere Bedienung
Nachteil:
- teurer in der Umsetzung
- (bei Erstellung einer xls Datei deutlich teuerer, da aufwendiger)

Zudem stellt sich die Frage der Vergütung:
- per Dienstleistervertrag (auf Stundenbasis)
- per Werkvertrag (Festpreis) erfordert die gründliche Aufnahme aller Anforderungen.

Welche Systemvoraussetzungen sind gegeben?
- Betriebsystem?
- Ist die Java Runtime gegeben?
- Welche Office Version?

Viele Grüße
Ebola
 
Mitglied seit
15.05.2003
Beiträge
11.307
Reaktionen
8
Ort
Fortuna 1895 Düsseldorf
Re: Offene Punkte

Original geschrieben von Ebola
Hallo,

da würden sich für mich zur Umsetzung aber noch folgende Fragen ergeben:

- Soll das einmalig gemacht werden oder sollte die Lösung automatisierbar sein?
Sprich bei einer einmaligen/selten anzuwendende Lösung würde ich ein VBA Makro in Excel erstellen das die HTML Source Daten per copy&paste eingefügt bekommt und daraus dann direkt in Excel die geforderte Tabelle erstellt.
Der Vorteil dieser Lösung wäre:
- schnelle Umzusetzen
- die Formatierung der Tabelle könnte direkt implementiert werden.
Nachteil:
- zu zeitaufwendig bei häufiger Anwendung

Die umfassendere Lösung wäre eine Java Anwendung mit Swing GUI.
Die Bedienung sähe zb so aus das die URL eingegeben wird, daraus die benötigten Daten geparst werden und ein beliebiges Ausgabeformat implementiert würde. Die Daten von Java als Excel-Tabelle zu speichern ist deutlich aufwendiger als diese als csv-Datei zu speichern und in Excel einzulesen.
Vorteil:
-automatisierbar
-besser erweiterbar
-deutlich einfacherer und schnellere Bedienung
Nachteil:
- teurer in der Umsetzung
- (bei Erstellung einer xls Datei deutlich teuerer, da aufwendiger)

Zudem stellt sich die Frage der Vergütung:
- per Dienstleistervertrag (auf Stundenbasis)
- per Werkvertrag (Festpreis) erfordert die gründliche Aufnahme aller Anforderungen.

Welche Systemvoraussetzungen sind gegeben?
- Betriebsystem?
- Ist die Java Runtime gegeben?
- Welche Office Version?

Viele Grüße
Ebola

bau doch ne grafische oberfläche drum rum, von der man dann per drag&drop die einzelnen daten rüber zieht...

mal im ernst, das ist ein klarer fall für perls Spreadsheet::WriteExcel Modul. da brauch man sich keine gedanken zu machen, wie man das ganze realisiert sondern kann sich konkret auf die aufgabe, nämlich das filtern der benötigten informationen konzentrieren. wenn die dateien immer exakt gleich aufgebaut sind, umso besser, dann ist das in ner halben stunde abgefrühstückt...
 

bog

Mitglied seit
02.08.2002
Beiträge
10.121
Reaktionen
0
Ort
auf dem mutterschiff
gibt's fuer php auch

da das ganze im prinzip eh nur billigstes data-mining per html-datei-geparse ist, reicht da auch ein quick-n-dirty php script, das die werte als csv-datei ausgibt. die kann man dann auch prima in excel reinladen

alles andere dauert mehr als "1-2 stunden"
 
Mitglied seit
23.04.2003
Beiträge
1.252
Reaktionen
0
Danke für eure ganzen Infos und Bemühungen. Bog hat sich hingesetzt und das ganze gecoded. Ich habe jetzt die Tabelle und somit könnte das Thema geschlossen werden.

Es ging wirklich bloß um eine "Quick-and-dirty" Lösung. Eine einmalige Sache.

Danke für eure Hilfe!
 
Status
Für weitere Antworten geschlossen.
Oben