对数据进行统计分析,有利于模型设计和精度优化,可以从数据层次对模型的性能进行分析。为此,博主实现了对voc数据各层次的分析,包含类别频率统计(饼图)、boxes面积统计(饼图)、boxes大小统计(散点图,kmean聚类)、分类别boxes面积统计(饼图)、分类别boxes大小统计(散点图,kmean聚类)。

数据统计分析分两步实现:
1、遍历xml数据,提取所有的boxes数据存储到pandas的dataframe中
2、加载dataframe,对各类boxes信息进行统计

在实现设置上由PascalVocKMeans类和PascalVocAnalysis类实现,PascalVocKMeans主要用于对boxes进行kmean聚类,然后绘制散点图;PascalVocAnalysis用于主流程,实现对数据的分析统计。

1、实现boxes聚类

PascalVocKMeans类主要实现对归一化的boxes进行聚类,通过show_msg函数展示聚类的效果

import os
from tqdm import tqdm
import pandas as pd
import xml
11-24 09:45