我已经从here下载了spider.py 0.5模块。spider.py文件中有许多函数,其中之一是:-

def webspider(self, b=None, w=200, d=5, t=None):

    '''Returns two lists of child URLs and paths
    b -- base web URL (default: None)
    w -- amount of resources to crawl (default: 200)
    d -- depth in hierarchy to crawl (default: 5)
    t -- number of threads (default: None)'''

    if b: self.weburls(b, w, d, t)
    return self.webpaths(), self.urls

我在同一目录下创建了一个名为run.py的新文件,代码如下:-
import spider

webspider(b='http://example.com', w=200, d=5, t=5)

当我执行run.py时,会收到以下消息:
NameError: name 'webspider' is not defined

关于如何正确使用这个模块有什么想法吗?我希望找到的所有链接都保存到一个名为url.txt的文件中。

最佳答案

你应该这样称呼它:

import spider
spider.webspider(b='http://example.com', w=200, d=5, t=5)

或者只能导入webspider
from spider import webspider
webspider(b='http://example.com', w=200, d=5, t=5)

您可以重命名导入的方法:
from spider import webspider as myspider
myspider(b='http://example.com', w=200, d=5, t=5)

关于python - 如何使用Spider.py Python模块,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/20563194/

10-09 17:52