group-by-analysis

对多 Sheet 的 Excel 文件进行行数统计、大文件 Parquet 转换预处理、数据清洗及分组聚合分析，并生成带样式标记的统计表与可视化图表。

Best for Data analystsWorks with GitHubLow risk

#excel #data-cleaning #group-by #visualization #chinese

⌘source

author: @OpenSenseNova
repo: OpenSenseNova/SenseNova-Skills
language: Python

✦overview.md

Key Features

·Multi-sheet Excel processing
·Merged cell handling
·Regex data cleaning
·Category mapping
·Group statistics with totals
·Bar chart visualization

Use Cases

→Analyze survey data across multiple Excel sheets
→Clean and group sales data for reporting
→Preprocess large Excel files before Parquet conversion

Best for

✓Data analysts
✓Excel report automation

FAQs

skills/sn-da-excel-workflow/capability/excel-data-analysis/group-by-analysis/SKILL.md

name

group-by-analysis

description

对多 Sheet 的 Excel 文件进行行数统计、大文件 Parquet 转换预处理、数据清洗及分组聚合分析，并生成带样式标记的统计表与可视化图表。

Step1 对数据进行清洗与预处理，包括处理合并单元格、正则过滤以及分类映射。

import re

# 1. 处理合并单元格：向前填充
target_col = 'category_column'
df[target_col] = df[target_col].ffill()

# 2. 正则清洗：去除无效字符或筛选特定格式
def clean_text(text):
    if pd.isna(text): return text
    return re.sub(r'[^\w\s]', '', str(text)).strip()

df[target_col] = df[target_col].apply(clean_text)

# 3. 分类映射函数骨架
def map_categories(value):
    mapping = {
        'example_key_1': 'Group_A',
        'example_key_2': 'Group_B'
    }
    return mapping.get(value, 'Others')

df['group_tag'] = df[target_col].apply(map_categories)

Step2 执行分组统计，计算频数、占比，并添加总计行。

group_col = 'group_tag'
value_col = 'value_column'

# 分组聚合：计数与求和
summary = df.groupby(group_col)[value_col].agg(['count', 'sum']).reset_index()

# 计算占比
total_sum = summary['sum'].sum()
summary['percentage'] = (summary['sum'] / total_sum).map(lambda x: f"{x:.2%}")

# 添加总计行
total_row = pd.DataFrame({
    group_col: ['Total'],
    'count': [summary['count'].sum()],
    'sum': [total_sum],
    'percentage': ['100.00%']
})
summary_final = pd.concat([summary, total_row], ignore_index=True)

print(summary_final)

Step3 生成可视化柱状图，配置中文字体、数值标签及网格美化。

...

$install

1-click copy

npx skills add OpenSenseNova/SenseNova-Skills --skill group-by-analysis

Safety assessment

★

Clarity score

How clear and easy to understand the SKILL.md instructions are, rated from 1 to 5.

3/ 5

good

Mostly clear, but there are still a few confusing or poorly structured parts.

◎

Actionability score

How directly an agent can act on the SKILL.md instructions, rated from 1 to 5.

3/ 5

medium

Partially actionable with several concrete steps, but still missing important details.

~community cookbook

~you might also like

view all →

duplicate-value-coloring

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

对比Excel多表中的特定系数并对异常值进行颜色标记。

April 30, 2026

◧ Compare

sn-search-academic

★70

documentation#arxiv

[✓]from @OpenSenseNova

[✓]

搜索学术论文和百科知识：ArXiv 预印本、Semantic Scholar（含引用数）、PubMed 生医文献、Wikipedia 百科。支持按章节读取 ArXiv HTML 全文和 PMC 开放获取全文，适合学术调研和深度阅读。

April 30, 2026

◧ Compare

numeric-format-normalization

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

对 Excel 数据进行数值格式标准化与清洗，支持大规模数据的 Parquet 转换流程，并完成关键指标的合计核对与结果文件导出。

April 30, 2026

◧ Compare

bar-chart-visualization

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

读取多工作表Excel文件，自动处理合并单元格与数据清洗，进行交叉分组统计并生成带总计行的结果表，最后绘制支持中英文字体的美化柱状图，适用于多维度数据汇总与可视化分析。

April 30, 2026

◧ Compare

percentage-calculation

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

根据文件行数动态切换大文件处理策略（Parquet转换），通过逐行扫描或列匹配提取关键指标并计算占比、均值等统计量，最终输出结构化Excel报告及可视化图表。

April 30, 2026

◧ Compare

kpi-metric-analysis

★70

testing#analysis

[✓]from @OpenSenseNova

[✓]

根据数据量自动选择读取策略（大文件转Parquet），提取关键指标进行单位一致性验证与排序分析，并输出可下载的结果表格。

April 30, 2026

◧ Compare

import re # 1. 处理合并单元格：向前填充 target_col = 'category_column' df[target_col] = df[target_col].ffill() # 2. 正则清洗：去除无效字符或筛选特定格式 def clean_text(text): if pd.isna(text): return text return re.sub(r'[^\w\s]', '', str(text)).strip() df[target_col] = df[target_col].apply(clean_text) # 3. 分类映射函数骨架 def map_categories(value): mapping = { 'example_key_1': 'Group_A', 'example_key_2': 'Group_B' } return mapping.get(value, 'Others') df['group_tag'] = df[target_col].apply(map_categories)

group_col = 'group_tag' value_col = 'value_column' # 分组聚合：计数与求和 summary = df.groupby(group_col)[value_col].agg(['count', 'sum']).reset_index() # 计算占比 total_sum = summary['sum'].sum() summary['percentage'] = (summary['sum'] / total_sum).map(lambda x: f"{x:.2%}") # 添加总计行 total_row = pd.DataFrame({ group_col: ['Total'], 'count': [summary['count'].sum()], 'sum': [total_sum], 'percentage': ['100.00%'] }) summary_final = pd.concat([summary, total_row], ignore_index=True) print(summary_final)

group-by-analysis

Key Features

Use Cases

Best for

FAQs

Does this skill handle multi-sheet Excel files?

What chart types are supported?

Can I customize the category mapping?

Safety assessment

Clarity score

Actionability score

~community cookbook

~you might also like

duplicate-value-coloring

sn-search-academic

numeric-format-normalization

bar-chart-visualization

percentage-calculation

kpi-metric-analysis

AI Skill Finder

group-by-analysis

Key Features

Use Cases

Best for

FAQs

Does this skill handle multi-sheet Excel files?

What chart types are supported?

Can I customize the category mapping?

Safety assessment

Clarity score

Actionability score

~community cookbook

~you might also like

duplicate-value-coloring

sn-search-academic

numeric-format-normalization

bar-chart-visualization

percentage-calculation

kpi-metric-analysis