Pandas实战(1):电商购物用户行为数据分析

简介: Pandas实战(1):电商购物用户行为数据分析

本期,我们使用Pandas对阿里天池中的电商购物用户行为数据分析,数据来源为:阿里天池电商购物用户行为分析数据_数据集-阿里云天池 (aliyun.com)文档说明为:电商购物用户行为分析数据 这份数据集是一个顾客购物信息的集合,记录了不同顾客在不同时间的购物行为。每一行代表一个单独的购物发票记录,数据集中包含了以下属性:

1. invoice_no: 发票号码,是每次交易的唯一标识符。2. customer_id: 顾客的ID,用于标识不同的顾客。3. gender: 顾客的性别,分为"Male"(男性)和"Female"(女性)。4. age: 顾客的年龄。5. category: 顾客购买的商品类别,如"Clothing"(服装)、"Shoes"(鞋子)、"Books"(书籍)、"Cosmetics"(化妆品)、"Toys"(玩具)、"Food & Beverage"(食品和饮料)、"Technology"(科技产品)、"Souvenir"(纪念品)等。6. quantity: 顾客购买的商品数量。7. price: 顾客为这次购物支付的总金额。8. payment_method: 顾客使用的支付方式,包括"Alipay"(支付宝)、"WeChat Pay"(微信支付)、"Card"(银行卡)。9. invoice_date: 发票日期,记录了交易发生的日期。

具体界面为: 899ae96056c106483fe4c4dfb699c114.png


文件不大,下载下来大概只有5.83M左右,用Pandas来看看?

一、导入数据

import pandas as pd
df=pd.read_csv('customer_shopping_data.csv')df

a0d0d5f62b33adccbdfe7c16130d9ba0.png

共99457行数据,不到10万行数据。二、看看有没有重复用户?

df['customer_id'].unique


b3aeb6aa083686be31f2d3edd8bee6b1.png

99457行,没有重复用户ID三、统计品类1. 统计商品类别数量

dfc=df.groupby('category').agg({'category':'count'})dfc

                                                    3aa587dad3e1002e75e465778eaa2c83.png


当然,这里也可以使用

a=df['category'].value_counts()a


画个饼图

                                                      23e18dfca2185e9da80b7e79b2629ddc.png

import matplotlib.pyplot as pltplt.figure()plt.pie(dfp['price'], labels=dfp.index, autopct='%1.1f%%')plt.show()

c8bb1d6381cb5aad27df3c567629c17c.png

数量排名前三的为:服装、化妆品、食品和饮料,果然衣食为大

2. 统计商品品类购买金额情况

df_cost=df.groupby('category').agg({'price':'sum'})df_cost.sort_values(by='price',ascending=False)

400ac00014342a3cf2eb95b1606ca1ba.png

画个饼图:

2d3977ed4accc860f5824a5557639944.png

销售金额前三名为:服装、鞋、科技产品,科技产品虽然种类卖的少,但架不住单个价值高啊


未完待续!

相关文章
|
4月前
|
自然语言处理 数据挖掘 数据处理
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
本文将介绍 10 个在数据处理中至关重要的 Pandas 技术模式。这些模式能够显著减少调试时间,提升代码的可维护性,并构建更加清晰的数据处理流水线。
178 3
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
|
4月前
|
监控 安全 数据挖掘
构建自定义电商数据分析API
在电商业务中,构建自定义数据分析API可实现销售、用户行为等指标的实时分析。本文介绍如何设计并搭建高效、可扩展的API,助力企业快速响应市场变化,提升决策效率。
120 0
|
4月前
|
数据采集 数据可视化 搜索推荐
Python数据分析全流程指南:从数据采集到可视化呈现的实战解析
在数字化转型中,数据分析成为企业决策核心,而Python凭借其强大生态和简洁语法成为首选工具。本文通过实战案例详解数据分析全流程,涵盖数据采集、清洗、探索、建模、可视化及自动化部署,帮助读者掌握从数据到业务价值的完整技能链。
509 0
|
11月前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
332 71
|
5月前
|
数据采集 供应链 搜索推荐
电商数据分析师进阶指南:高效运用API的N种技巧!
电商数据分析师如何合理运用电商API,已成为推动业务增长的重要课题。本文从电商API概述、运用步骤到实际案例,全面解析其在数据分析中的作用。通过明确数据需求、掌握调用技巧、清洗与分析数据,再到可视化呈现,分析师可挖掘用户行为、优化库存及支持精准营销。同时,面对数据安全、质量和技术挑战,需强化安全措施、提升技能并培养专业人才。合理运用电商API,将为企业解锁数据潜能,助力电商行业持续发展。
|
11月前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
437 73
|
9月前
|
SQL JSON 数据可视化
基于 DIFY 的自动化数据分析实战
本文介绍如何使用DIFY搭建数据分析自动化流程,实现从输入需求到查询数据库、LLM分析再到可视化输出的全流程。基于经典的employees数据集和DIFY云端环境,通过LLM-SQL解析、SQL执行、LLM数据分析及ECharts可视化等模块,高效完成数据分析任务。此方案适用于人力资源分析、薪酬管理等数据密集型业务,显著提升效率并降低成本。
13090 16
|
9月前
|
存储 分布式计算 大数据
基于阿里云大数据平台的实时数据湖构建与数据分析实战
在大数据时代,数据湖作为集中存储和处理海量数据的架构,成为企业数据管理的核心。阿里云提供包括MaxCompute、DataWorks、E-MapReduce等在内的完整大数据平台,支持从数据采集、存储、处理到分析的全流程。本文通过电商平台案例,展示如何基于阿里云构建实时数据湖,实现数据价值挖掘。平台优势包括全托管服务、高扩展性、丰富的生态集成和强大的数据分析工具。
|
9月前
|
数据采集 机器学习/深度学习 数据挖掘
利用Beautiful Soup和Pandas进行网页数据抓取与清洗处理实战
本文通过一个实战案例,介绍如何使用Python中的Beautiful Soup库抓取网页数据,并用Pandas进行清洗和处理。首先,确保安装了requests、beautifulsoup4和pandas库。接着,通过requests获取HTML内容,使用Beautiful Soup解析并提取新闻标题、发布时间和正文。然后,利用Pandas对数据进行清洗,包括去除多余空格、替换特殊字符、删除无效数据等。最后,根据需求进行数据处理(如过滤关键词)并保存为CSV或Excel文件。这个案例适合初学者和有一定经验的用户,帮助快速掌握这两个强大的工具。
301 3
|
9月前
|
搜索推荐 小程序 数据挖掘
互联网运营为何必须做好用户行为数据分析
近年来互联网运营已经成为大多数企业不可或缺的一部分。随着互联网技术的不断发展和数字化转型的推进,越来越多的企业都在加速向互联网运营转型,而在这一过程当中,分析用户行为数据是至关重要的。接下来,我们就来探讨一下其中的原因。

热门文章

最新文章