Web Scraping – Google Refine’ Giriş #3

Bir önceki yazımda Scraper eklentisi ile bir web sayfasında bulunan büyük miktarda veriyi nasıl Excel’e veya Google Docs’a aktardığımızı anlatmıştım. O örnekteki veriler hali hazırda HTML tablolarında <tr> <td> yapısında tutulduğu için oldukça temiz bir çıktı elde etmiştik. Ancak ne yazık ki durum her zaman öyle olmuyor. “Web Scraping – Google Refine’ Giriş #3” yazısını okumaya devam et

Web Scraping – Scraper Eklentisi #2

Bir önceki yazımda bahsettiğim Scraper eklentisini şimdi detaylı olarak inceleyeceğiz.

Öncelikle bu eklentiyi nasıl işlerde kullanbileceğinizden bahsedeyim.

  • Bir web sayfasındaki medyaların (resim,video vs.) hepsini indirmek istiyorsunuz ve linklerine ihtiyacınız var.
  • Kendini tekrar eden, html yapısına sahip sayfalardan içerik çıkartmaya çalışıyorsunuz
  • Haber sitelerinde araştırma yapıyorsunuz ve bir anahtar kelimeye sahip tüm yazıları istiyorsunuz
  • Bir konferansa konuşmacı olacak katılımcıların listesini indirmek, her konuşmacının detayını kaydetmek istiyorsunuz.
  • Bu örnekler özel amaçlara göre çoğaltılabilir.

“Web Scraping – Scraper Eklentisi #2” yazısını okumaya devam et

Web Scraping – Giriş #1

İlgilenmeye yeni yeni başladığım data mining ve web scrapping hakkında yazacağım seriye bir giriş olan bu yazıda size bir senaryo üzerinden web scrapping olayını anlatacağım.

Pazar araştırması yapan bir firmada çalışıyorsunuz ve bir sonraki raporunuzda  son beş senede piyasaya sürülen e-cüzdan özellikli ürünlerden söz edeceksiniz. Ancak o kadar çok bilgi var ki önünüzde nereden başlayacağınızı bilmiyorsunuz. Sizinle çalışan stajyerlerden birisi neyse ki gecen hafta içinde e-cüzdan kelimesi gecen IT blog ve haber sitelerinin listesini hazırlamış.

Önünüzde yaklaşık 120 tane link var ve her birinin okunup raporlanması gerekiyor. Bu işi elle yaparsanız 2 belki de 3 haftanızı alacak. Peki ya html, xpath ve regex hakkında biraz bilgiliyseniz ? Bu işi rahatlıkla bir haftada halledebilir ve manuel şekilde yapacağınızdan çok daha düzenli bir veri bankası oluşturabilirsiniz.

“Web Scraping – Giriş #1” yazısını okumaya devam et