[tutorial] Cikkszámok és árak letöltése a vtac.hu weboldalról

Az alábbi folyamat leírja, miként nyerhető ki a https://vtac.hu/ webáruházból a termékek cikkszáma és ára bash/shell scriptek segítségével.

  1. Honlaptérkép XMl letöltése a https://www.vtac.hu/sitemap.xml helyről.
  2. Az ott található csomagolt sitemap XML fájl letöltése, mely letöltés után kibontandó.
  3. Az így kapott sitemap fájlból az URL-ek lekérése és elmentése egy vtac_hu_sitemap_urls.txt fájlba (forrás): sed '//!d; s/[[:space:]]*\(.*\)<\/loc>/\1/' sitemap-vtac_hu-1.xml > vtac_hu_sitemap_urls.txt
  4. Az így kapott fájlból a speciális kódok törlése a hibás URL-ek elkerüléséhez: tr -d '\r' vtac_hu_sitemap_urls2.txt
  5. A csak URL-eket tartalmazó fájl alapján az oldalak letöltése (forrás): i=1; while read p; do wget $p -O $i.html; i=$((i + 1)); done <vtac_hu_sitemap_urls2.txt
  6. Miután megérkeztek a HTML oldalak számítógépünkre, az alábbi bash/shell script segítségével olvassuk ki belőlük az árat és a cikkszámot: grep -hr "itemprop='price'" > ../skus.csv