İlgilenmeye yeni yeni başladığım data mining ve web scrapping hakkında yazacağım seriye bir giriş olan bu yazıda size bir senaryo üzerinden web scrapping olayını anlatacağım.
Pazar araştırması yapan bir firmada çalışıyorsunuz ve bir sonraki raporunuzda son beş senede piyasaya sürülen e-cüzdan özellikli ürünlerden söz edeceksiniz. Ancak o kadar çok bilgi var ki önünüzde nereden başlayacağınızı bilmiyorsunuz. Sizinle çalışan stajyerlerden birisi neyse ki gecen hafta içinde e-cüzdan kelimesi gecen IT blog ve haber sitelerinin listesini hazırlamış.
Önünüzde yaklaşık 120 tane link var ve her birinin okunup raporlanması gerekiyor. Bu işi elle yaparsanız 2 belki de 3 haftanızı alacak. Peki ya html, xpath ve regex hakkında biraz bilgiliyseniz ? Bu işi rahatlıkla bir haftada halledebilir ve manuel şekilde yapacağınızdan çok daha düzenli bir veri bankası oluşturabilirsiniz.
Nasıl mı ?
Web scraping ile internet sayfalarını kazıyıp ihtiyacınız olan bilgiyi sokup alarak. Web scraping,bir sayfada gözünüzün gördüğü hemen hemen herşeyi getirebilir. Linklerden, görsellere kadar.
Peki nedir bu webscrapping bir tool mu ?
Hayir,bir tool degil. Web scraping icin kullanabileceginiz onlarca tool var.
Basit ve ücretsiz bir tool …
Bu konuda karşılaştığım en başarılı tool Chrome Scraper eklentisi. Chrome tarayıcınıza web store üzerinden eklenti olarak kurduğunuz bu program size web sayfalarındaki benzer öğeleri tek tıkla çekme imkanı sağlıyor.
Chrome Scraper kullanımı hakkında ayrı bir yazıyı daha sonra yazacağım.
Elde edilen verileri düzenlemek için ?
Web scrapping işlemi sonunda elinizde binlerce satır veri olabilir ve bu veriler ham haldedir. Tıpkı elmas madeninden çıkan kömür veya kalitesiz taşlar gibi. İncelikle temizlendikten sonra değerini ortaya koyacak olan bilgiler. Genelde web scrapping’in ilk aşamasında elinize geçen veri HTML ve ASCII kodları gibi istenmeyen parçalar içerir. Her bir hücrede bu parçalar bulunduğu için elle onları tek tek silmeniz imkansız hale gelir. Kimi zaman CTRL + F Replace All diyebilirsiniz ancak her zaman sizi kurtarmaz. Bu tarz işlemleri ise yine Google’ın başlatmış olduğu sonradan ise devrettiği Google Refine (Bugün ki adı Open Refine) ile yapabilirsiniz.
Öncelikle Scraper eklentisini anlatacağım daha sonra ise Google Refine hakkında bilgi vereceğim.