首先是雅虎的YQL, 用这个语言可以轻松返回网页的XML或者JSON格式,YQL的console在这个地址:
https://developer.yahoo.com/yql/console/

比如现在我们抓取百度首页的内容,可以在YOUR YQL STATEMENT内打上:select * from html where url="ww.baidu.com"
点击Test,就可以看到结果了。返回的结果,可以选择XML或者JSON。

select * from html where url="ww.baidu.com"中,*代表抓取所有内容,也可以有选择性的抓取,比如要抓百度首页的图片,就可以这样写:select src from html where url="ww.baidu.com"

接下来用Jquery的.getJSON方法,就可以实现跨域的抓取了。






09-22 12:42