7月22日，万众瞩目的第二届 Apache Flink 极客挑战赛正式发布。在疫情防控的背景下，第二届 Flink 极客挑战赛要求参赛队伍利用大数据技术 + AI 算法技术来帮助解决防控遇到的挑战。为了能更好地让选手理解赛题以及提高成绩，本文主要从以下几个方面来对赛题进行解读：

备注：该数据为模拟数据。

模型训练：训练数据集中的向量数据都是 512 维的，可以考虑对向量数据做一个降维映射，选出有用 feature，去除噪音 feature，提高后续相似度匹配的准确率。在 demo 里，在模型训练阶段，训练了一个 autoencoder 模型，用以将向量数据从 512 维提取成 128 维。

模型训练：业界存在较多的向量数据预处理方法，demo 中选取了 autoencoder 作为模型来进行数据预处理。选手可以考虑其他方法或者继续优化 autoencoder 来提高模型的性能。注意，这里的模型训练指的是非监督的模型训练，标签文件只提供了 20 个类别（人）的数据，实际上并不止 20 个类别，选手可以基于提供的标签文件来进行模型性能的检测。
离线检索相似向量：proxima 有多种内置的聚类算法和检索算法，也可以开发自定义的插件，选手可以结合不同场景更换聚类算法或者检索算法；此外，demo 中 k 的选值为 20，选手可以设定不同的 k 值并编写自己的逻辑来确定每条确诊病例数据的相似向量。
在线分类：同样，选手可以考虑不同的聚类算法和检索算法以及开发自定义的插件；demo 中在线分类逻辑里，选取的 k 值是 1。选手可以设置不同的 k 值，并且基于不同的 k 值重新编写在线分类的逻辑；此外，实效性也是考察的一个因素，选手在实现高质量的分类逻辑时，也要避免耗时的操作。

福利来了

Apache Flink 极客挑战赛

本文分享自微信公众号 - Flink 中文社区（gh_5efd76d10a8d）。
如有侵权，请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。