我正在Google集群中运行Spark作业,并且正在尝试在RDD映射过程中获取一些日志记录信息。快速示例:

object LoggerWrapper extends Serializable{
    @transient lazy val logger=Logger.getLogger("myLogger")
}
object Processing{
 ...
    rdd.map(x=>{
       LoggerWrapper.logger.info("processing:"+x)
       foo(x)
    })
   ...
  sparkContext.stop
 }


我正在遵循here中描述的方法并结合in the Spark webpage中找到的指示。最后显示的是log4j.properties。使用--files命令的gcloud标志(如下所示)上传文件。我还更新了yarn-site.xml文件,以便将属性yarn.log-aggregation-enable设置为true

我的第一个问题是,当我从主节点yarn logs -application <applicationID>运行时,总是收到错误消息“日志聚合未完成或未启用。”收集消息还有其他必要的事情吗?

第二个问题是,在进程运行时,是否有可能在控制台输出中获取所有工作程序的日志消息。例如,如果spark作业是一个流作业,那么我想在作业运行时获取消息。

log4j.properties:

log4j.appender.myConsoleAppender=org.apache.log4j.ConsoleAppender
log4j.appender.myConsoleAppender.layout=org.apache.log4j.PatternLayout
log4j.appender.myConsoleAppender.layout.ConversionPattern=%d [%t] %-5p %c - %m%n
log4j.appender.RollingAppender=org.apache.log4j.DailyRollingFileAppender
log4j.appender.RollingAppender.File=${spark.yarn.app.container.log.dir}/spark.log
log4j.appender.RollingAppender.DatePattern='.'yyyy-MM-dd
log4j.appender.RollingAppender.layout=org.apache.log4j.PatternLayout
log4j.appender.RollingAppender.layout.ConversionPattern=[%p] %d %c %M - %m%n

log4j.appender.RollingAppenderU=org.apache.log4j.DailyRollingFileAppender
log4j.appender.RollingAppenderU.File=${spark.yarn.app.container.log.dir}/sparkU.log
log4j.appender.RollingAppenderU.DatePattern='.'yyyy-MM-dd
log4j.appender.RollingAppenderU.layout=org.apache.log4j.PatternLayout
log4j.appender.RollingAppenderU.layout.ConversionPattern=[%p] %d %c %M - %m%n


# By default, everything goes to console and file
log4j.rootLogger=INFO, RollingAppender, myConsoleAppender

# My custom logging goes to another file
log4j.logger.myLogger=INFO, RollingAppenderU, myConsoleAppender

# The noisier spark logs go to file only
log4j.logger.spark.storage=INFO, RollingAppender
log4j.additivity.spark.storage=false
log4j.logger.spark.scheduler=INFO, RollingAppender
log4j.additivity.spark.scheduler=false
log4j.logger.spark.CacheTracker=INFO, RollingAppender
log4j.additivity.spark.CacheTracker=false
log4j.logger.spark.CacheTrackerActor=INFO, RollingAppender
log4j.additivity.spark.CacheTrackerActor=false
log4j.logger.spark.MapOutputTrackerActor=INFO, RollingAppender
log4j.additivity.spark.MapOutputTrackerActor=false
log4j.logger.spark.MapOutputTracker=INFO, RollingAppender
log4j.additivty.spark.MapOutputTracker=false


gcloud命令:
gcloud dataproc jobs submit spark --cluster myCluster--properties spark.driver.memory=1000m,spark.driver.maxResult=512m,spark.executor.memory=1000m --jars gs://path/to/jar/myJar.jar --files /absolute/path/to/local/file/log4j.properties--class contextual.wikidata.spark.jobs.$1 <application-arguments>

最佳答案

如您在ContainerManagerImpl中所见,检查是否启用了日志聚合是在nodemanager代码内部:

protected LogHandler createLogHandler(Configuration conf, Context context,
    DeletionService deletionService) {
  if (conf.getBoolean(YarnConfiguration.LOG_AGGREGATION_ENABLED,
      YarnConfiguration.DEFAULT_LOG_AGGREGATION_ENABLED)) {
    return new LogAggregationService(this.dispatcher, context,
        deletionService, dirsHandler);
  } else {
    return new NonAggregatingLogHandler(this.dispatcher, deletionService,
                                        dirsHandler,
                                        context.getNMStateStore());
  }
}


并且似乎是在第一次创建LogHandler实例时作为初始化的一部分完成的;这意味着必须将配置值提供给所有工作节点,并且必须在启动/重新启动节点管理器之前将其包含在配置中。

在Dataproc中,您无需自己手动修改yarn-site.xml文件,而是在创建集群时使用更简单的--properties标志,并且在启动守护程序服务之前,将在所有节点中正确设置config键:

gcloud dataproc clusters create my-cluster \
    --properties yarn:yarn.log-aggregation-enable=true


另外,您需要确保以运行作业的同一用户身份运行yarn logs命令,否则YARN会尝试在日志聚合目录中查找错误的$USER目录:

sudo yarn logs -applicationId <applicationId>

关于apache-spark - 从Google Cloud中的Spark Worker获取日志输出,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/38483165/

10-10 18:53