Über Java den Quelltext einer Webseite anfordern und per regex text auslesen

  • Guten Tag liebe Community,


    ich habe seit einigen Tagen ein Problem mit dem ich nicht weiterkomme deswegen wende ich mich nun an euch.
    zu der idee:
    ich möchte den quelltext dieser Seite, http://www.elternwissen.com/erziehung-entwicklung/, über meine App abfragen.
    dazu hab ich bisher zwei ansätze versucht.


    (um platz zu sparen hab ich das try catch außenrum mal weggelassen)


    und der zweite ansatz war


    beide ansätze werfen keine exception !
    ich bekomme den quelltext bis '</script> <!-- end: #floater --> <div id="p' in der variable quellcode gespeichert


    Frage1: wieso bekomme ich nicht den ganzen quellcode?
    Frage2: wie kann es sein das durch diesen regex

    Java
    Pattern linkPattern = Pattern.compile("<h2>(.*?)</h2>", Pattern.DOTALL );
        	Matcher linkMatcher = linkPattern.matcher(text);
    
    
      	  while(linkMatcher.find()) {
        			textView1.setText(linkMatcher.group(0));
        	}


    der h2 Tag '<h2>Erziehungs-Tipps:</h2>' aus der variable quellcode gematcht wird und als text meiner textview gesetzt wird, obwohl der quelltext nur bis zu genannter stelle in der variable quellcode steht?


    fragen über fragen ich weiß, bitte seid nachsichtig es ist meine erste app :D


    lg. ChampS

  • Hi Champs,


    hab eben mal denn zweiten Ansatz in einem Java "Programm" ausprobiert und es geht. Wenn ich mir am Ende den Quellcode per System.out.prinln() ausgeben lasse ist alles da.


    Wie bzw wo läßt du dir den Quellcode ausgeben?


    Mfg Titus

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!