我对网络爬虫之类的东西有点陌生,尽管我已经编程一年了。所以请容忍我在这里解释我的问题。
我在分析雅虎的信息!新闻,我已经得到了我想要的大部分,但是有一小部分让我难堪。
例如:http://news.yahoo.com/record-nm-blaze-test-forest-management-225730172.html
我想得到数字旁边的拇指向上和拇指向下图标在评论。当我在chrome浏览器中使用“inspect element”时,我可以清楚地看到需要查找的东西,即div类“ugccmt rate”下的em标记。但是,我在python程序中找不到这个。在试图找出问题的根源时,我单击以查看页面的源代码,但似乎不存在此标记。你们知道我该怎么处理这个问题吗?这是否与页面上仅在运行后才显示信息的javascript有关?我希望你能给我指点方向。
谢谢。

最佳答案

页面是通过javascript生成的。
首先检查网站是否有移动版本。如果没有,请检查任何api或rss/atom提要。如果没有其他东西,您要么手动找出javascript加载的内容和从何处加载,要么使用Selenium自动生成一个浏览器,该浏览器为您呈现javascript以进行解析。

关于python - 从网站解析-源代码不包含我需要的信息,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/10868410/

10-12 07:37