Back to Question Center
0

Vodič za početnike iz Semalt-a

1 answers:

Podaci i informacije na webu raste iz dana u dan. Danas većina ljudi koristi Google kao prvi izvor znanja, bilo da traže kritike o poslu ili pokušavaju da razumeju novi termin.

Sa količinom dostupnih podataka na webu, otvara se dosta mogućnosti za naučnike podataka. Nažalost, većina podataka na webu nije dostupna. Predstavljen je u nestrukturisanom formatu koji se naziva HTML format koji se ne može preuzeti. Stoga, potrebno je znanje i stručnost naučnika podataka da ga iskoristi.

Web skraping je proces pretvaranja podataka prisutnih u HTML formatu u strukturirani format koji se lako može pristupiti i koristiti. Skoro svi programski jezici mogu se koristiti za pravilno odlaganje weba. Međutim, u ovom članku ćemo koristiti R jezik.

Postoji nekoliko načina na koje se podaci mogu očistiti sa Interneta. Neki od najpopularnijih su:

1. Ljudska kopija-paste

Ovo je spora, ali vrlo efikasna tehnika čišćenja podataka sa weba. U ovoj tehniku, osoba analizira podatke sami, a zatim ih kopira u lokalno skladište .

19) 2. Uparivanje teksta uzorka

Ovo je još jedan jednostavan ali moćan pristup za izvlačenje informacija sa weba. Potrebno je koristiti jezičke za programiranje s regularnim izrazima

3. API interfejs

)

Mnoštvo web lokacija kao što su Twitter, Facebook, LinkedIn itd. Pružaju vam javni ili privatni API-ji koji se mogu pozvati koristeći standardne šifre za preuzimanje podataka u propisanom formatu.

4. DOM Parsing ( 20)

Imajte na umu da neki programi mogu preuzeti dinamički sadržaj stvoren od strane skripti na klijentu. Moguće je razvrstati stranice u stablo DOM-a koje se zasniva na programima koje možete koristiti da biste izvukli neke dijelove ovih stranica. )

Pre nego što počnete da pretražujete na webu, morate imati osnovno znanje o R. Ako ste početnik, postoje mnogi izvori koji mogu pomoći. Takođe, od vas se zahteva da imate znanja o HTML-u i CSS-u. Međutim, pošto većina naučnika na podacima nije sasvim zvučna sa tehničkim znanjem o HTML-u i CSS-u, možete koristiti otvoreni softver kao što je Gadget Selector.

Na primjer, ako čišćujete podatke na IMDB website-u za 100 najpopularnijih filmova objavljenih u određenom periodu, potrebno je da sakupite sljedeće podatke sa sajta: opis, vrijeme izvršavanja, žanr, rejting, glasova , bruto zarade, reditelj i glumac. Kada jednom odložite podatke, možete ga analizirati na različite načine. Na primer, možete napraviti niz zanimljivih vizuelizacija. Sada kada imate opću ideju o tome šta je razaranje podataka, možete se potruditi!

December 7, 2017
Vodič za početnike iz Semalt-a
Reply