Kezdő útmutató a Semalt weblapok selejtezéséből

Az internetes adatok és információk napról napra növekszenek. Manapság a legtöbb ember a Google-t használja az első tudásforrásként, függetlenül attól, hogy véleményt keres egy vállalkozással kapcsolatban, vagy megpróbál megérteni egy új kifejezést.

Az interneten elérhető mennyiségű adat sok lehetőséget kínál az adattudósok számára. Sajnos a weben található adatok többsége nem áll rendelkezésre. Nem strukturált formátumban, HTML formátumnak nevezik, amely nem tölthető le. Ennek felhasználásához az adattudós tudására és szakértelmére van szükség.

A webkaparás az a folyamat, amellyel a HTML formátumban jelen lévő adatok strukturált formátummá konvertálhatók, amelyek könnyen hozzáférhetők és felhasználhatók. Szinte az összes programozási nyelv használható a megfelelő webes lebontáshoz. Ebben a cikkben azonban az R nyelvet fogjuk használni.

Az adatok többféle módon lekaparhatók az internetről. Néhány a legnépszerűbbek közül:

1. Emberi másolás-beillesztés

Ez egy lassú, de nagyon hatékony módszer az adatok internetről történő lekaparására. Ebben a technikában az ember elemzi az adatokat, majd másolja a helyi tárolóba.

2. Szövegminta illesztése

Ez egy újabb egyszerű, de hatékony módszer az információk internetről történő kinyerésére. Ehhez a programozási nyelvek rendszeres kifejezés-illesztési lehetőségeit kell használni.

3. API felület

Sok olyan webhely, mint a Twitter, a Facebook, a LinkedIn stb., Nyilvános vagy magán API-kat biztosít, amelyek szabványos kódok használatával hívhatók meg az adatok előírt formátumban történő visszakeresésére.

4. DOM elemzés

Vegye figyelembe, hogy egyes programok beolvashatnak az ügyféloldali szkriptek által létrehozott dinamikus tartalmat. Lehetőség van az oldalak elemzésére egy DOM-fába, amely azon programokon alapul, amelyek segítségével ezen oldalak egyes részeit visszakeresheti.

Mielőtt elkezdené a webes kaparást R-ben, rendelkeznie kell alapvető ismeretekkel az R-ről. Ha kezdő vagy, sok remek forrás segíthet. Ezenkívül ismernie kell a HTML és a CSS ismereteit. Mivel azonban a legtöbb adattudós nem eléggé ismeri a HTML és a CSS technikai ismereteit, használhat nyitott szoftvert, például a Selector Gadgetot.

Például, ha az adatokat az IMDB webhelyén az adott időszakban kiadott 100 legnépszerűbb filmre kapja, akkor a következő adatokat kell lekapartoznia egy webhelyről: leírás, futási idő, műfaj, besorolás, szavazatok, bruttó kereset, rendező és öntvény. Miután eltávolította az adatokat, különféle módon elemezheti azokat. Például számos érdekes megjelenítést készíthet. Most, amikor általános elképzelése van arról, hogy mi az az adat selejtezés, megkerülheti a dolgot!