Semalt sugerează 5 pași pentru a rasfata paginile web

Terapia este o sursă deschisă și un cadru pentru extragerea informațiilor de pe diferite site-uri web. Utilizează API-uri și este scris în Python. În prezent, terapia este întreținută de o companie de scraping web numită Scrapinghub Ltd.

Este un tutorial simplu despre cum să scrii web crawler folosind Scrapy, analizează Craigslist și stochează informații în format CSV. Cele cinci etape principale ale acestui tutorial sunt menționate mai jos:

1. Creați un nou proiect Scrapy

2. Scrieți un păianjen pentru a trage un site web și a extrage date

3. Exportați datele razuite folosind linia de comandă

4. Schimbă păianjenul pentru a urmări legăturile

5. Folosiți argumente păianjen

1. Creați un proiect

Primul pas este crearea unui proiect. Va trebui să descărcați și să instalați Scrapy. În bara de căutare, trebuie să introduceți numele directorului în care doriți să stocați datele. Scrapy utilizează diferite păianjeni pentru a extrage informații, iar acești păianjeni fac solicitări inițiale pentru a crea directoare. Pentru a pune în funcțiune un păianjen, trebuie să accesați lista directoarelor și să introduceți un anumit cod acolo. Fii atent la fișierele din directorul tău curent și observă două fișiere noi: quotes-a.html și quotes-b.html.

2. Scrieți un păianjen pentru a trage un site web și extrage date:

Cea mai bună modalitate de a scrie un păianjen și extrage date este crearea diferitor selectori în coaja Scrapy. Ar trebui să adăugați întotdeauna adresele URL între ghilimele; în caz contrar, Scrapy va modifica natura sau numele acelor URL instantaneu. Ar trebui să folosiți ghilimele duble în jurul unei adrese URL pentru a scrie în mod corespunzător un păianjen. Ar trebui să folosiți.extract_first () și să evitați o eroare de index.

3. Exportați datele răzuite folosind linia de comandă:

Este important să exportați datele razuite folosind linia de comandă. Dacă nu o exportați, nu veți obține rezultate exacte. Păianjenul va genera diferite directoare care conțin informații utile. Ar trebui să folosiți cuvintele cheie Python cu randament pentru a exporta aceste informații într-un mod mai bun. Importul de date în fișiere JSON este posibil. Fișierele JSON sunt utile programatorilor. Instrumente precum JQ ajută la exportul de date razuite fără nicio problemă.

4. Schimbă păianjenul pentru a urmări linkurile:

În proiectele mici, puteți schimba păianjenii pentru a urmări linkurile în mod corespunzător. Dar nu este necesar în cazul proiectelor de dimensiuni mari de razuire a datelor . Un schimbător de fișiere pentru conducte de articole va fi configurat atunci când schimbați păianjen. Acest fișier poate fi localizat în secțiunea tutorial / pipelines.py. Cu Scrapy, puteți construi păianjeni sofisticat și le puteți schimba locația oricând. Puteți extrage mai multe site-uri simultan și realiza diferite proiecte de extragere a datelor.

5. Folosiți argumente păianjen:

Callback-ul parse_author este un argument spider care poate fi utilizat pentru a extrage date de pe site-urile web dinamice. Puteți furniza, de asemenea, paianjenilor argumente cu linii de comandă cu un cod specific. Argumentele spider devin atribute de păianjen în cel mai scurt timp și schimbă aspectul general al datelor dvs.

În acest tutorial, am abordat doar elementele de bază ale Scrapy. Există o mulțime de funcții și opțiuni pentru acest instrument. Trebuie doar să descarci și să activezi Scrapy pentru a afla mai multe despre specificațiile sale.