怎么做浅层数据?怎么做浅层数据分析表
浅层数据一般指的是表面级别的数据,用于提供基本的信息和观察结果。以下是一些常见的方法和步骤,可用于制作浅层数据:
1. 收集数据:确定您感兴趣的主题或领域,并收集相关的数据。这可以包括调查、观察、记录、采访、文献研究等方法。
2. 清洗数据:对收集到的数据进行清洗和整理。这包括去除重复数据、处理缺失值、纠正错误、格式化数据等操作,以确保数据的准确性和一致性。
3. 整理和组织数据:根据数据的特性和目的,将数据按照逻辑方式进行整理和组织。可以使用表格、电子表格软件或数据库等工具进行整理和存储。
4. 数据可视化:使用图表、图形、图像等可视化工具,将数据以直观的方式呈现。这有助于更好地理解数据,并发现数据中的模式、趋势和关联性。
5. 摘要和总结:从数据中提取关键信息,并生成简洁的摘要和总结。这有助于将重要的见解和结论传达给其他人。
6. 分析和解释:根据数据的特点和目标,进行基本的数据分析和解释。这可以包括计算统计指标、生成简单的报告或描述数据的特点。
请注意,浅层数据制作的具体方法和步骤可能因数据的类型、目的和分析要求而有所不同。在进行浅层数据制作时,确保从可靠和合法的来源收集数据,并遵守相关数据保护和隐私法规。
浅层数据是指只对数据进行简单的处理,例如筛选、排序、统计等,而不会对数据进行深入的分析。如果您想要进行更深入的数据分析,可以考虑使用深度学习算法。
1.提出问题
2.理解数据
3.数据清洗
4.构建模型
5.数据可视化
第一步:提出问题
根据现有的数据,主要围绕消费者对于产品的评价为出发点,围绕以下四个方向进行研究。
(1) 此网站受众的年龄层。
(2) 销量最高的单品,以及此单品主要受众的年龄层。
(3)验证正向反馈最多的单品和推荐最多的单品是否一致,若不一致,提出重新思考网站宣传方向,着重宣传正向反馈最多的单品。
(4) 查看不同类别的服装的受欢迎程度,以此为基础分析此网站的优势产品和劣势产品,便于网站战略分析。这里主要运用评分字段来代表受欢迎程度。
第二步:理解数据
本次研究是关于某女装电商的消费者对消费的评论数据,具体字段如下:
Clothing ID(服装编号)
Age(年龄)
Title(评价题目)
Review Text(评论内容)
Rating(评分)
Recommend IND(是否会推荐给其他用户)
Positive Feedback Count(正向反馈数量)
Division Name(部门名称)
Department Name(部门名称)
Class Name(分类名称)
这里共有23486条数据和10个变量。其中,Rating(评分)共分为1-5个档次;Recommend IND(是否会推荐给其他用户):1-推荐,0-不推荐;Positive Feedback Count(正向反馈数量):来自其他消费者对本评论的赞同数量;Division Name(产品划分):这里是指服装的规格,分为general(正常)和genral petite(偏小).Department Name(部门名称)这里是服装所属部门的名称;Class Name(分类名称)是服装分类的名称。
第三步:数据清理
这一步是数据分析的核心步骤,占据整个过程的60%。
首先将数据复制粘贴到新的表中,重新命名为某女装电商评论-数据清理。后期所有操作将在这个新的表格里进行。以避免原始数据的丢失。
(1)选择子集
根据所要研究的问题将多余用不到的字段进行隐藏。 这里将第一列没有名称标注的序列号进行隐藏。
(2)列名重命名
由于原数据是英文版,为了方便下面的操作,我们把字段的名称改为中文。
(3)删除重复值
在这里为了避免误删重复值(因为可能有些消费者会碰巧写了相同的评价),我们将同时考虑评价标题和评价内容作为筛选重复值的标准。首先将评价标题和评价内容同时创建的新的一列”评价”。
然后,通过评价一列删除重复值。
(4)缺失值处理
通过空值定位条件查询到共有13条划分部门,划分名称,服装分类信息同时确实,介于无法通过服装序列号找回缺失值,并且13条信息占总量的半分比过小,不足以影响分析结果,所以我们暂且先删除这些残缺数据。
第四步:构建模型
这里我们使用数据透视表构建模型。
(1)关于此网站的受众年龄层。
选中年龄这一列,选择数据-数据分析-描述分析。得到以下统计量。
由此可见该女装网站主要的受众群体平均年龄为43岁,购买最多的消费者年龄为39岁,可以针对此年龄层的潜在消费者进行着重宣传。
(2)销量最高的单品,以及此单品主要的受众年龄层。
将服装编号设置为行,年龄设置为列,值为服装标号计数项。行和列都设置为降序排列-计数项:服装编号计数项。
将数值用百分比代替后,结果更加显而易见, 通过此表格,我们可以发现销量最高的单品(这里因为没有销量的数据,我们假设评论最多的产品即为销量最高的单品)编号为1078,查看原表格我们可以知道,编号为1078的单品是偏小号的裙子。
另外,在1078号中主要的受众年龄层还是35-39年龄层之间。
(3)验证正向反馈最多的单品和推荐最多的单品是否一致
像前两步一样分别将服装编号设为行,正向反馈和推荐最多的单品设为列。
对比两个表格,发现两个维度的结论是一致的。
(4)不同类别的服装受欢迎程度。
将分类名称设置为行,评分设置为列, 值选为计数值:评分
值显示方式选择-总计的百分比。
受欢迎程度由高到低分别为:连衣裙,针织衫,衬衫。
虽然此网站出售产品种类很多,但是消费者只集中于某一种或两种商品之间消费,由此可见网站还需要从其他的类别中,积极进行宣传,扩大消费面,从而提高销量增加收益。
第五步:数据可视化略。