Tutorial voor Chrome Web Scraper van Semalt Expert

Als u Google Chrome gebruikt, is er een extensie voor uw browser waarmee u webpagina's kunt schrapen. Het staat bekend als '' Scrapper '' en het kan zonder problemen worden gebruikt. Scrapper helpt bij het schrapen van de inhoud van een website en het uploaden van de resultaten naar Google-documenten.

Hoe een website scrapen met de Scraper-extensie?

1. Selecteer Chrome Web Store in Google Chrome;

2. Voer in extensies een zoekopdracht uit naar '' Scrapper '';

3. Het eerste zoekresultaat is de extensie die bekend staat als '' Scrapper '';

4. Selecteer de knop die wordt vermeld als '' Toevoegen aan Chrome ';

5. Ga terug naar de lijst van Britse parlementsleden;

6. Klik op de volgende link ;

7. Zoek nu naar één MP en zorg ervoor dat de invoer is gemarkeerd;

8. Klik met de rechtermuisknop om de optie "Gelijksoortig schrapen" te kiezen;

9. De console voor scrapper verschijnt in een ander venster;

10. Bekijk de geschraapte inhoud in de schraperconsole;

11. Selecteer "Opslaan in Google Documenten ..." om ervoor te zorgen dat de inhoud wordt opgeslagen als een Google-spreadsheet.

Uitgebreid schrapen

Voordat u zich aan dit recept houdt, is het handig om de basis van HTML te begrijpen. Via deze link leest u bijvoorbeeld een korte inleiding tot HTML

Laten we ons voorstellen dat we geïnteresseerd zijn in alle films met in de hoofdrol Asia Argento, een beroemde Italiaanse actrice.

1. Er is een zeer gedetailleerd archief van actoren in IMDB. De site van Asia Argento is: http://www.imdb.com/name/nm0000782/;

2. Hier kunt u alle rollen van de actrice bekijken. Laten we beginnen met het schrappen van de informatie waarin we geïnteresseerd zijn;

3. Probeer het te schrapen zoals hierboven beschreven;

4. Je zult zien dat de lijst een beetje vervormd is. Dit komt doordat de lijst hier anders kan worden opgebouwd;

5. Ga naar de schraperconsole. Linksboven zie je het kleine vakje met de tekst XPath;

6. Xpath is een soort zoektaal die werkt voor XML en HTML;

7. XPath kan helpen bij het lokaliseren van de delen van de pagina waarin u geïnteresseerd bent. Het volgende is om een geschikt element te vinden en hiervoor de XPath te schrijven;

8. Laten we nu onze tafel indelen;

9. U zult zien dat onze bestaande XPath, die alle benodigde gegevens heeft, "// div [3] / div [3] / div [2] / div" is;

10. XPath informeert het systeem om het HTML-document te bekijken en het derde element te kiezen, dan het tweede element en dan allemaal;

11. Maar we willen graag dat onze gegevens worden gescheiden;

12. Gebruik het kolomgedeelte in de console voor scrapper om dit voor elkaar te krijgen;

13. Laten we eerst onze titel zoeken РІР‚в find Gebruik Inspect Element om de titel te bekijken;

14. Controleer de titel binnen een tag. Voeg de tag toe aan de XPath;

15. De uitdrukking lijkt naar behoren te functioneren, dus maak er onze eerste kolom van;

16. Vervang in de sectie "Kolommen" de naam van de eerste kolom door "titel";

17. Voeg de XPath eraan toe;

18. In de kolomsectie zijn de XPaths relatief en dit betekent dat "./b" het <b> element zal kiezen

19. Voeg in de XPath voor de titelkolom "./b" toe en selecteer "schrapen";

20. Laten we nu een jaar doorgaan. Jaren zijn te vinden binnen één span;

21. Maak een nieuwe kolom door het kleine plusje naast de kolom voor je titel te selecteren;

22. Maak met XPath "./span" een kolom voor "jaar";

23. Klik op schrapen en bekijk hoe het jaar is toegevoegd;

24. Klaar!