我对处理多标签分类问题的方法有疑问。

根据文献综述,我发现一种最常用的方法是“问题转化方法”。它使用二进制相关方法将多标签问题转化为许多单标签问题,分类结果只是每个单标签分类器的简单联合。

由于单个标签问题可以归类为二进制分类(如果有两个标签)或多类分类问题(如果有多个标签,即标签> 2),则当前的转换方法似乎都将多标签问题转换为多个二进制问题。但这将导致数据不平衡问题,因为负类可能比正类具有更多的文档。

所以我的问题是,为什么不转换为多个多类问题,然后应用直接的多类分类算法来避免数据不平衡问题。在这种情况下,对于一个测试文档,每个训练有素的单标签多类分类器将预测是否分配标签,并且所有此类单标签多类分类器预测结果的并集将是该测试文档的最终标签集。

总之,与将多标签分类问题转换为许多二进制分类问题相比,将多标签分类问题转换为许多多分类问题可以避免数据不平衡问题。除此之外,以上两种方法的所有内容都保持不变:您需要构造| L |(| L |表示分类问题中不同标签的总数)单个标签(二进制或多类)分类器,您需要准备| L |在一组训练数据和测试数据中,您需要在测试文档上测试每个单个标签分类器,并且每个单个标签分类器的预测结果的并集是测试文档的最终标签集。

希望有人能帮助澄清我的困惑,非常感谢!

最佳答案

您所描述的是一种针对多类问题的已知转换策略,称为“标签幂集转换策略”。

该方法的缺点:


LP转换可能导致高达2 ^ | L |变形的
标签。
类不平衡问题。


参考:
切尔曼,埃弗顿·阿尔瓦雷斯,玛丽亚·卡罗来纳·蒙纳德和让·梅斯。 “多标签问题转换方法:案例研究。” CLEI电子期刊14.1(2011):4-4。

关于machine-learning - 文本分类:多标签文本分类与多分类文本分类,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/35737352/

10-12 22:06