drupal.org上的每个项目都有自己的页面:

http://drupal.org/project/marinelli

制作新版本时,它将添加到该项目的版本页面中

http://drupal.org/node/185969/release

我正在尝试监视页面的时间,但是我当然不想一直手动检查它。我需要以编程方式使用php。

  • 我必须抓取页面吗?此页面可抓取吗?
  • 我看到一个RSS提要,但是不确定它是如何工作的,或者它是否可以帮助我进行监视或如何工作。
  • drupal.org是否提供更清洁的解决方案(例如API)?还是可以直接监视存储库?
  • 欢迎其他解决方案
  • 最佳答案

    与其像您说的那样不抓取页面,不如使用一个更好的解决方案,是使用它的RSS feed-例如,在您的情况下:http://drupal.org/node/185969/release/feed

    优点是RSS是一种定义明确的格式:在HTML汤中获取任何不必要的信息的机会较小。

    要从该XML提要中提取数据,可以使用SimpleXML来“手工”处理XML数据,也可以使用诸如SimplePie之类的知道RSS / ATOM的库。

    然后,在这种情况下,您必须跟踪最新的更新-每次获取RSS feed时,请检查是否有比上次看到的最新更新更新的更新。

    在Marinelli模块的XML中,您将看到每个条目都包含一个<pubDate>标记,该标记对应于它的date;例如 :

    <pubDate>Tue, 25 Aug 2009 07:28:26 +0000</pubDate>
    

    如果今天的最新条目是2009-08-25,明天的条目是2010-07-27 ...那么,这意味着该模块已更新;-)

    关于php - 以编程方式监视网页,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/3334063/

    10-16 14:51