Products
GG网络技术分享 2025-11-12 18:27 4
在本教程中,我们将探讨怎么在Hive中用分位数进行数据琢磨。分位数是统计学中用来说说数据分布情况的关键工具,它Neng帮我们搞懂数据的集中趋势和离散程度。
分位数在以下场景中非常有用: - 数据集说说性统计 - 探索性数据琢磨 - 数据挖掘和机器学模型开发

Hive 给了几个用于计算分位数的函数:
percentile 函数
percentilecol 是要计算的列,p 是百分位数。SELECT percentile as median FROM sales;percentile_approx 函数
percentile_approxpercentile 相同。SELECT percentile_approx as median FROM sales;percent_rank 函数
percent_rank OVERcol 是要计算的列。SELECT product_name, sales_amount, percent_rank OVER as Sales_Rank FROM sales;percentile 和 percentile_approx 函数时应确保列类型是数值类型。percentile_approx 兴许比 percentile geng高大效。虚假设我们有一个名为 sales 的表,包含 product_name 和 sales_amount 列。
计算中位数
sql
SELECT percentile as median FROM sales;
计算四分位数
sql
SELECT percentile as Q1,
percentile as Q2,
percentile as Q3 FROM sales;
计算卖排名
sql
SELECT product_name, sales_amount, percent_rank OVER as Sales_Rank FROM sales;
和琢磨分位数,从而geng优良地搞懂你的数据集。
Demand feedback