7月22日,万众瞩目的第二届 Apache Flink 极客挑战赛正式发布。在疫情防控的背景下,第二届 Flink 极客挑战赛要求参赛队伍利用大数据技术 + AI 算法技术来帮助解决防控遇到的挑战。为了能更好地让选手理解赛题以及提高成绩,本文主要从以下几个方面来对赛题进行解读:


  1. 赛题数据

  2. 赛题任务

  3. 赛题技术

  4. 赛题 demo 解析

  5. 赛题优化点

  6. 赛题评分指标


备注:该数据为模拟数据。


  • 历史行动数据集:os["ENV_HOME"] + /data_set/training_data.csv

  • 确诊病例数据集:os["ENV_HOME"] + /data_set/first_test_file.csv

  • 实时数据集:存放在 Kafka 的 tianchi_read_example 的 topic 中。



  • 模型训练:训练数据集中的向量数据都是 512 维的,可以考虑对向量数据做一个降维映射,选出有用 feature,去除噪音 feature,提高后续相似度匹配的准确率。在 demo 里,在模型训练阶段,训练了一个 autoencoder 模型,用以将向量数据从 512 维提取成 128 维。

  • 模型训练:业界存在较多的向量数据预处理方法,demo 中选取了 autoencoder 作为模型来进行数据预处理。选手可以考虑其他方法或者继续优化 autoencoder 来提高模型的性能。注意,这里的模型训练指的是非监督的模型训练,标签文件只提供了 20 个类别(人)的数据,实际上并不止 20 个类别,选手可以基于提供的标签文件来进行模型性能的检测。

  • 离线检索相似向量:proxima 有多种内置的聚类算法和检索算法,也可以开发自定义的插件,选手可以结合不同场景更换聚类算法或者检索算法;此外,demo 中 k 的选值为 20,选手可以设定不同的 k 值并编写自己的逻辑来确定每条确诊病例数据的相似向量。

  • 在线分类:同样,选手可以考虑不同的聚类算法和检索算法以及开发自定义的插件;demo 中在线分类逻辑里,选取的 k 值是 1。选手可以设置不同的 k 值,并且基于不同的 k 值重新编写在线分类的逻辑;此外,实效性也是考察的一个因素,选手在实现高质量的分类逻辑时,也要避免耗时的操作。


赛题解读 | 如何基于 Flink + AI 解决疫情防控难题?-LMLPHP  福利来了  赛题解读 | 如何基于 Flink + AI 解决疫情防控难题?-LMLPHP

Apache Flink 极客挑战赛

本文分享自微信公众号 - Flink 中文社区(gh_5efd76d10a8d)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

09-08 03:21