Stap 3: YQL (YAHOO QUERYTAAL)
Dus we hebben geïdentificeerd waar in de webpagina onze
gebruikersnamen zijn. We moeten nu alleen te verkrijgen die informatie in een traversable indeling. Normaal, zijn schrapers gebouwd door gewoon het laden van de hele webpagina in een dichte boom-achtige XML-knooppunt indeling. Dit is een hoofdpijn. Laden van een webpagina in JSON is veel eenvoudiger, omdat het ons toelaat te toegang tot elementen rechtstreeks met behulp van de. exploitant. Als u de webpagina in JSON-formaat, zijn we gaan gebruiken van Yahoo's Query Language. In feite is YQL een open hulpmiddel ingebouwd door Yahoo op een query webpagina Json. De eigenlijke taal is zeer vergelijkbaar met MYSQL. Dit is de link naar de console:
https://Developer.yahoo.com/yql/console/
Hier is hoe het eruit ziet: (afbeelding 1)
dus vrij ongecompliceerd is onze query:
Selecteer * uit html waar url = "https://www.reddit.com/r/arduino/comments/3rixq5/i_programmed_a_robot_arm_to_feed_me_breakfast/" en xpath ='/ / a [bevat ()
Selecteer * gewoon betekent alles vanaf de webpagina selecteren waar de url = onze reddit draad.
Het xpath zegt in feite, zoeken via de pagina en terug elke plaats waar we een tag met een klasse van 'auteur hebben'.
Zoals u zien kunt de query is succesvol en geeft als resultaat alle de gebruikersnamen die wilden we:(image 2)
Om dit resultaat in een JSON-formaat, klikt u op het tabblad json: (beeld 3)