Web Scraping – Giriş #1

İlgilenmeye yeni yeni başladığım data mining ve web scrapping hakkında yazacağım seriye bir giriş olan bu yazıda size bir senaryo üzerinden web scrapping olayını anlatacağım.

Pazar araştırması yapan bir firmada çalışıyorsunuz ve bir sonraki raporunuzda  son beş senede piyasaya sürülen e-cüzdan özellikli ürünlerden söz edeceksiniz. Ancak o kadar çok bilgi var ki önünüzde nereden başlayacağınızı bilmiyorsunuz. Sizinle çalışan stajyerlerden birisi neyse ki gecen hafta içinde e-cüzdan kelimesi gecen IT blog ve haber sitelerinin listesini hazırlamış.

Önünüzde yaklaşık 120 tane link var ve her birinin okunup raporlanması gerekiyor. Bu işi elle yaparsanız 2 belki de 3 haftanızı alacak. Peki ya html, xpath ve regex hakkında biraz bilgiliyseniz ? Bu işi rahatlıkla bir haftada halledebilir ve manuel şekilde yapacağınızdan çok daha düzenli bir veri bankası oluşturabilirsiniz.

“Web Scraping – Giriş #1” yazısını okumaya devam et