outlier-detection

执行全面的异常值检测与数据质量评估，利用 IQR 方法识别异常值并结合偏度、峰度分析数据分布特征，适用于非正态分布数据的预处理阶段。

Best for data preprocessingWorks with GitHubLow risk

#data quality #outlier detection #iqr #skewness #kurtosis #statistical analysis

⌘source

author: @OpenSenseNova
repo: OpenSenseNova/SenseNova-Skills
language: Python

✦overview.md

Key Features

·IQR-based outlier detection
·Skewness and kurtosis analysis
·Automatic numeric column selection
·Configurable outlier filtering
·Visualization support via matplotlib/seaborn

Use Cases

→Preprocess datasets with non-normal distributions before modeling
→Automate data quality checks in a data pipeline
→Identify extreme values in financial or sensor data
→Prepare training data by filtering anomalous observations

Best for

✓data preprocessing
✓statistical analysis
✓quality assurance pipelines

Not ideal for

!real-time streaming data
!datasets with no numeric columns

skills/sn-da-excel-workflow/capability/excel-data-cleaning/outlier-detection/SKILL.md

name

outlier-detection-and-quality-assessment

description

执行全面的异常值检测与数据质量评估，利用 IQR 方法识别异常值并结合偏度、峰度分析数据分布特征，适用于非正态分布数据的预处理阶段。

Step 1 加载数据并配置环境

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# 设置中英文字体以支持可视化显示 (SimHei 或 WenQuanYi)
plt.rcParams['font.sans-serif'] = ['SimHei', 'WenQuanYi Zen Hei', 'DejaVu Sans']
plt.rcParams['axes.unicode_minus'] = False

# 加载数据
file_path = 'data.xlsx'  # 替换为实际文件路径
df = pd.read_excel(file_path)

# 基础信息检查
print(f"数据形状: {df.shape}")
print(f"数据类型:\n{df.dtypes}")
print(df.head())

Step 2 基于 IQR 方法识别异常值

# 自动筛选数值型列进行分析
target_cols = df.select_dtypes(include=[np.number]).columns.tolist()
outlier_summary = []

for col in target_cols:
    data = df[col].dropna()
    if data.empty:
        continue
        
    # 四分位距计算 (IQR)
    Q1 = data.quantile(0.25)
    Q3 = data.quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    # 识别异常值
    outliers = data[(data < lower_bound) | (data > upper_bound)]
    
    outlier_summary.append({
        'target_col': col,
        'outlier_count': len(outliers),
        'outlier_ratio': f"{(len(outliers)/len(data)*100):.2f}%",
        'lower_limit': lower_bound,
        'upper_limit': upper_bound,

...

$install

1-click copy

npx skills add OpenSenseNova/SenseNova-Skills --skill outlier-detection

Safety assessment

★

Clarity score

How clear and easy to understand the SKILL.md instructions are, rated from 1 to 5.

5/ 5

excellent

Very clear and well structured, with almost no room for misunderstanding.

◎

Actionability score

How directly an agent can act on the SKILL.md instructions, rated from 1 to 5.

5/ 5

very high

Highly actionable with clear, concrete steps that an agent can follow directly.

~community cookbook

~you might also like

view all →

duplicate-value-coloring

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

对比Excel多表中的特定系数并对异常值进行颜色标记。

April 30, 2026

◧ Compare

line-chart-visualization

★70

performance#data visualization

[✓]from @OpenSenseNova

[✓]

提取结构化数据并进行特征清洗与聚类分析，生成包含趋势对比、分布特征与参数敏感性的多维度综合可视化图表，适用于各类趋势预测与多维对比场景。

April 30, 2026

◧ Compare

numeric-format-normalization

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

对 Excel 数据进行数值格式标准化与清洗，支持大规模数据的 Parquet 转换流程，并完成关键指标的合计核对与结果文件导出。

April 30, 2026

◧ Compare

bar-chart-visualization

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

读取多工作表Excel文件，自动处理合并单元格与数据清洗，进行交叉分组统计并生成带总计行的结果表，最后绘制支持中英文字体的美化柱状图，适用于多维度数据汇总与可视化分析。

April 30, 2026

◧ Compare

percentage-calculation

★70

testing#excel

[✓]from @OpenSenseNova

[✓]

根据文件行数动态切换大文件处理策略（Parquet转换），通过逐行扫描或列匹配提取关键指标并计算占比、均值等统计量，最终输出结构化Excel报告及可视化图表。

April 30, 2026

◧ Compare

kpi-metric-analysis

★70

testing#analysis

[✓]from @OpenSenseNova

[✓]

根据数据量自动选择读取策略（大文件转Parquet），提取关键指标进行单位一致性验证与排序分析，并输出可下载的结果表格。

April 30, 2026

◧ Compare

outlier-detection

执行全面的异常值检测与数据质量评估，利用 IQR 方法识别异常值并结合偏度、峰度分析数据分布特征，适用于非正态分布数据的预处理阶段。

Best for data preprocessingWorks with GitHubLow risk

import pandas as pd import matplotlib.pyplot as plt import numpy as np import seaborn as sns # 设置中英文字体以支持可视化显示 (SimHei 或 WenQuanYi) plt.rcParams['font.sans-serif'] = ['SimHei', 'WenQuanYi Zen Hei', 'DejaVu Sans'] plt.rcParams['axes.unicode_minus'] = False # 加载数据 file_path = 'data.xlsx' # 替换为实际文件路径 df = pd.read_excel(file_path) # 基础信息检查 print(f"数据形状: {df.shape}") print(f"数据类型:\n{df.dtypes}") print(df.head())

# 自动筛选数值型列进行分析 target_cols = df.select_dtypes(include=[np.number]).columns.tolist() outlier_summary = [] for col in target_cols: data = df[col].dropna() if data.empty: continue # 四分位距计算 (IQR) Q1 = data.quantile(0.25) Q3 = data.quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR # 识别异常值 outliers = data[(data < lower_bound) | (data > upper_bound)] outlier_summary.append({ 'target_col': col, 'outlier_count': len(outliers), 'outlier_ratio': f"{(len(outliers)/len(data)*100):.2f}%", 'lower_limit': lower_bound, 'upper_limit': upper_bound,

outlier-detection

Key Features

Use Cases

Best for

Not ideal for

Step 1 加载数据并配置环境

Step 2 基于 IQR 方法识别异常值

Safety assessment

Clarity score

Actionability score

~community cookbook

~you might also like

duplicate-value-coloring

line-chart-visualization

numeric-format-normalization

bar-chart-visualization

percentage-calculation

kpi-metric-analysis

AI Skill Finder

outlier-detection

Key Features

Use Cases

Best for

Not ideal for

Step 1 加载数据并配置环境

Step 2 基于 IQR 方法识别异常值

Safety assessment

Clarity score

Actionability score

~community cookbook

~you might also like

duplicate-value-coloring

line-chart-visualization

numeric-format-normalization

bar-chart-visualization

percentage-calculation

kpi-metric-analysis