Wednesday, July 22, 2009

HTML Toplamak (Scraping)

Baska bir sitenin icerigini otomize olarak (bir script yardimiyla) alip diskte saklamak istiyorsak, bu tekrar yayin amacli, baglantisiz bakma amacli vs. olabilir, o zaman HTML toplama tekniklerini bilmek gerekli. Bu gibi isler icin biz Unix wget komutunu kullaniriz; fakat eger wget herhangi bir sebeple ise yaramazsa, bir alternatifi bilmekte yarar var. Python kutuphanelerinden urllib. Alttaki ornekte Google Insights for Search sayfalarindan Google'da son 7 gun icinde en cok aranan kelimelerin listesini almak icin kullandigimiz kodlar bulunabilir. Ayni sayfalar uzerinde wget ise yaramadi, urllib FancyURLopener calisti.
from urllib import FancyURLopener

myopener = FancyURLopener()
insightsURL = 'http://www.google.com/insights/search/overviewReport'
page = myopener.open(insightsURL + '?q=&date=today+7-d&cmpt=q')
print page.read()

No comments: