Webseite auslesen, Leerzeichen zwischen jedem Zeichen

  • Hallo,
    habe folgenden Quelltext um Webseiten auszulesen,
    in vorherigen Apps hat der Quelltext auch schon funktioniert,
    jedoch macht er plötzlich in einem neuen Projekt Probleme.


    Quellcode:





    Dies ist beim debuggen mein Return:




    Code
    ÿþ< h t m l > < b o d y > D i e s i s t e i n T e s t ! < / b o d y > < / h t m l >


    :evil: Jedes Mal diese Leerzeichen da!!!(Zwischen den Wörtern sind übrigens zwei Leerzeichen.)


    Und wenn ich den Value kopiere und beispielsweise in Notepad einfüge bleibt noch folgendes über:




    Code
    ÿþ<


    seltsam... :-/


    Habe das Projekt schon neu angelegt, Eclipse neu gestartet, Internet-Permission gegeben, Activities ins Manifest geschrieben, neue VM angelegt, andere API's verwendet!
    Ändert leider alles nichts. :(


    Ich verwende im Eclipse die API 16, im Projekt jedoch die API 10, da meine anderen Apps auch mit API 10 laufen.
    Meine VM hat API 16.


    Wäre schön wenn mir jemand weiterhelfen könnte.


    Gruß Lukas

  • Was möchtest du den auf der Webseite auslesen ? oder geht es Dir nur um die Darstellung in deiner App.


    Falls letzters, würde ich immer einen Webview inkl. Chromclient in die App bauen und nur die Urls durchreichen, das spart Dir jede Menge Ärger.


    Wenn du bestimmte Daten einer Webseite abgreifen möchtest, so kann ich Dir nur von der "SelbstbauHandMethode" abraten.
    Entweder du fragst den Seitenbetreiber nach eine geeigneten Schnittstelle JSON, XML, was auch immer oder ....


    Da draussen haben einige kluge Köpfe schon Java-Klassen geschrieben welche Dir HTML Seiten super aufbereiten.


    uneingeschränkt empfehlenswert ist JSOUP, damit kann man super einzelne Elemente bzw. auch Gruppen auf der Seite abfragen.
    (am besten ist da das Feature Elemente per css selektoren wie zb JQUERY abzufragen


    Elements ergstand = headercontent.select("#team1 > div.standing > img");


    = wähle im Element mit der ID "team1" den Div-Container mit der Klasse "standing" aus und selektiere alle "IMG"


    wie gesagt super einfach.)



    Super ist auch HTMLCleaner zu verwenden.




    der phil




    PS: zu deinem Problem, die Codierung der Seite könnte falsch sein utf vs ISO

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!