pivot-table-analysis

利用交叉表与热力图对分类数据进行多维度占比分析，适用于奖项分布、绩效评估或市场占有率等结构化数据的清洗与可视化。

Best for structured categorical dataWorks with GitHubLow risk

#pandas #crosstab #heatmap #data cleaning #chinese font

⌘source

author: @OpenSenseNova
repo: OpenSenseNova/SenseNova-Skills
language: Python

✦overview.md

Key Features

·Cleans merged cells from Excel
·Builds frequency crosstabs
·Calculates column-wise proportions
·Generates annotated heatmaps
·Outputs summary table with totals

Use Cases

→Analyze award distribution across departments
→Visualize market share by product and region
→Compare performance ratings across teams
→Examine survey response patterns by demographics

Best for

✓structured categorical data
✓cross-dimensional analysis
✓reporting teams

Not ideal for

!free-text data
!real-time streaming data

FAQs

skills/sn-da-excel-workflow/capability/excel-data-analysis/pivot-table-analysis/SKILL.md

name

pivot-table-cross-analysis

description

利用交叉表与热力图对分类数据进行多维度占比分析，适用于奖项分布、绩效评估或市场占有率等结构化数据的清洗与可视化。

Step1 对原始数据进行清洗与重构，处理 Excel 合并单元格导致的缺失值，并筛选核心分析列。

import pandas as pd

def preprocess_pivot_data(file_path, target_cols=['奖项', '项目名称', '成员', '单位']):
    """
    清理并重构数据列，处理合并单元格填充。
    """
    df = pd.read_excel(file_path)
    # 映射通用列名
    df.columns = target_cols
    
    # 关键技巧：处理合并单元格。ffill 前需确保数据按原始分类顺序排列
    # 假设第一列为分类标签（如奖项名称）
    df[target_cols[0]] = df[target_cols[0]].fillna(method='ffill')
    
    # 删除关键信息（如成员或单位）缺失的无效行
    df = df.dropna(subset=[target_cols[2], target_cols[3]])
    
    # 清洗字符串空格
    for col in df.select_dtypes(['object']).columns:
        df[col] = df[col].str.strip()
        
    return df

Step2 构建交叉分析表（Crosstab），计算不同维度下的频数分布及百分比占比。

def create_cross_analysis(df, index_col='单位', columns_col='奖项'):
    """
    构建交叉表并计算各分类维度的获奖/分布比例。
    """
    # 生成频数统计交叉表
    cross_table = pd.crosstab(df[index_col], df[columns_col])
    
    # 计算占比：各列（奖项）下各行（单位）的分布比例
    # div(axis=1) 表示按列求和后进行除法
    award_proportions = cross_table.div(cross_table.sum(axis=0), axis=1) * 100
    
    # 技巧：生成带有总计行和占比的汇总表
    summary = cross_table.copy()
    summary['总计'] = summary.sum(axis=1)
    summary.loc['合计'] = summary.sum()

...

$install

1-click copy

npx skills add OpenSenseNova/SenseNova-Skills --skill pivot-table-analysis

Safety assessment

★

Clarity score

How clear and easy to understand the SKILL.md instructions are, rated from 1 to 5.

4/ 5

very good

Clear and well structured, with only minor parts that might need a second read.

◎

Actionability score

How directly an agent can act on the SKILL.md instructions, rated from 1 to 5.

4/ 5

high

Mostly actionable with clear steps; only a few small gaps remain.

~community cookbook

~you might also like

view all →

duplicate-value-coloring

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

对比Excel多表中的特定系数并对异常值进行颜色标记。

April 30, 2026

◧ Compare

sn-search-academic

★70

documentation#arxiv

[✓]from @OpenSenseNova

[✓]

搜索学术论文和百科知识：ArXiv 预印本、Semantic Scholar（含引用数）、PubMed 生医文献、Wikipedia 百科。支持按章节读取 ArXiv HTML 全文和 PMC 开放获取全文，适合学术调研和深度阅读。

April 30, 2026

◧ Compare

numeric-format-normalization

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

对 Excel 数据进行数值格式标准化与清洗，支持大规模数据的 Parquet 转换流程，并完成关键指标的合计核对与结果文件导出。

April 30, 2026

◧ Compare

bar-chart-visualization

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

读取多工作表Excel文件，自动处理合并单元格与数据清洗，进行交叉分组统计并生成带总计行的结果表，最后绘制支持中英文字体的美化柱状图，适用于多维度数据汇总与可视化分析。

April 30, 2026

◧ Compare

percentage-calculation

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

根据文件行数动态切换大文件处理策略（Parquet转换），通过逐行扫描或列匹配提取关键指标并计算占比、均值等统计量，最终输出结构化Excel报告及可视化图表。

April 30, 2026

◧ Compare

kpi-metric-analysis

★70

testing#analysis

[✓]from @OpenSenseNova

[✓]

根据数据量自动选择读取策略（大文件转Parquet），提取关键指标进行单位一致性验证与排序分析，并输出可下载的结果表格。

April 30, 2026

◧ Compare

import pandas as pd def preprocess_pivot_data(file_path, target_cols=['奖项', '项目名称', '成员', '单位']): """ 清理并重构数据列，处理合并单元格填充。 """ df = pd.read_excel(file_path) # 映射通用列名 df.columns = target_cols # 关键技巧：处理合并单元格。ffill 前需确保数据按原始分类顺序排列 # 假设第一列为分类标签（如奖项名称） df[target_cols[0]] = df[target_cols[0]].fillna(method='ffill') # 删除关键信息（如成员或单位）缺失的无效行 df = df.dropna(subset=[target_cols[2], target_cols[3]]) # 清洗字符串空格 for col in df.select_dtypes(['object']).columns: df[col] = df[col].str.strip() return df

def create_cross_analysis(df, index_col='单位', columns_col='奖项'): """ 构建交叉表并计算各分类维度的获奖/分布比例。 """ # 生成频数统计交叉表 cross_table = pd.crosstab(df[index_col], df[columns_col]) # 计算占比：各列（奖项）下各行（单位）的分布比例 # div(axis=1) 表示按列求和后进行除法 award_proportions = cross_table.div(cross_table.sum(axis=0), axis=1) * 100 # 技巧：生成带有总计行和占比的汇总表 summary = cross_table.copy() summary['总计'] = summary.sum(axis=1) summary.loc['合计'] = summary.sum()

pivot-table-analysis

Key Features

Use Cases

Best for

Not ideal for

FAQs

What file formats does the skill support?

Does it handle Chinese text properly?

Can I change the analysis dimensions?

Does the skill modify the original file?

Safety assessment

Clarity score

Actionability score

~community cookbook

~you might also like

duplicate-value-coloring

sn-search-academic

numeric-format-normalization

bar-chart-visualization

percentage-calculation

kpi-metric-analysis

AI Skill Finder

pivot-table-analysis

Key Features

Use Cases

Best for

Not ideal for

FAQs

What file formats does the skill support?

Does it handle Chinese text properly?

Can I change the analysis dimensions?

Does the skill modify the original file?

Safety assessment

Clarity score

Actionability score

~community cookbook

~you might also like

duplicate-value-coloring

sn-search-academic

numeric-format-normalization

bar-chart-visualization

percentage-calculation

kpi-metric-analysis