分工
设计问卷+数据分析(建模、绘图、基础描述)X2 何华驰 徐必晗
文字撰写(背景、目的、方法...)X2 吴伟烽 张金玉
PPT,文字/图表 排版润色,答辩 X1 刘闽
时间安排
十二月中旬 一月中旬 选题、设计问卷、预调查
一月中旬 一月底(春节) 确定基本框架、发放问卷/收集数据
春节 二月二十号 数据分析
二月二十号 三月初 定稿
三月初 三月中旬 PPT+排版
2025年3月25日前, 学校选拔晋级省赛团队。
选题
- 直播间对对碰
- 经济形势严峻背景下演唱会爆火现象
- 无人驾驶网约车--萝卜快跑
风雨无阻户外忙,爱心驿站避风
导师
- 选题不要过大,具体到细节。像影响演唱会的因素以及背后的原因太过复杂,2w字完全不够,而且太过娱乐化,如果聚焦到某一个歌手,可能有塌房风险;直播间对对碰可以考虑再细化到某一个方面;网约车写过的太多了,不建议写;选题可以考虑一些有大爱的方向,正能量一些的。另外由校赛选拔省赛的评委老师每个人的工作量很大,可能几十秒一篇文章,所以选题和基本格式非常非常重要
- 一月三号左右我们导师会组织所有参赛同学开线下会议,缴费 + 确定指导老师
确定选题
直播间对对碰
初版问卷
性别
学历年龄段
职业
收入
是否有了解/购买过
是否愿意尝试愿意: 对哪方面会有期待娱乐放松 社交互动 购物需求 跟随潮流 支持主播 消磨时间 其他(自填)
不愿意: 原因时间有限 信任问题 隐私问题 成本问题 有更好的替代活动 周围没有人接触 认为其本质是广告 信息过载 其他(自填)
- 是否愿意尝试(评分)
- 1 2 3 4 5
- 不愿意的原因(选做)
- 时间有限 信任问题 隐私问题 成本问题 有更好的替代活动 周围没有人接触 认为其本质是广告 信息过载 其他(自填)
- 主要观看的平台
- 抖音 快手 视频号 哔哩哔哩 小红书 淘宝
了解的途径- 购买过的商品/服务类型 (多选)
- 食品 饮料 数码 服装 化妆品 护肤品 家居用品 在线课程 玩具 图书 运动装备 汽车配件 其他(自填)
- 消费金额
- 0 1-10 11-50 51-100 101-500 501-1000 1001以上
- 态度(评分)
- 1 2 3 4 5
- 频率 (评分)
- 1 2 3 4 5
- 观看的原因(多选)
- 娱乐放松 社交互动 购物需求 跟随潮流 支持主播 消磨时间 其他(自填)
- 推荐的意愿程度(评分)
- 1 2 3 4 5
是否愿意向周围人推荐- 几个方面的体验程度 (评分)
- 娱乐性 互动性 购物便利性 信息丰富性 视觉吸引 可靠性 性价比
初版实证分析
描述性统计图
| Type | Data |
|---|---|
| 词云图 | 购买过的商品 |
| 边际分布曲线 | 不同性别/年龄段/职业 ---消费金额----态度 |
| 南丁格尔玫瑰图 | 观看原因 |
| 多个雷达图 | 不同性别/年龄段/职业 ----观看原因 |
| 矩形树图 | 消费金额 |
| 漏斗图 | 观看平台 |
| 气泡图 | 不同性别/年龄段/职业 ---频率---推荐程度 |
模型
| Type | Data |
|---|---|
| 主成分分析 | 几个方面体验程度---态度 |
| 多分类logistic模型 | 性别--年龄--职业--收入--平台--消费金额---频率--推荐程度 |
| k-means聚类 | 性别--年龄--职业--收入--愿意尝试的程度 |
| 弹性网络(待定) |
第二版实证分析
描述性统计图
| Type | Data |
|---|---|
| 词云图 | 购买过的商品 |
| ~~边际分布曲线×~~小提琴图√ | 不同年龄段 ---消费金额----态度 |
| 南丁格尔玫瑰图√ | 观看原因 |
| 雷达图√ | 不同性别 ----观看原因 |
| 矩形树图√ | 消费金额 |
| 漏斗图√ | 观看平台 |
| 气泡图√ | 不同职业--频率---推荐程度 |
| 堆叠柱状图√ | 购买途径 |
| 环状饼图√ | 可以改进的地方 |
| ~~复合饼图×~~饼图√ | 渠道 |
| 箱线图 | 不同商品在对对碰直播间购买意愿程度(1-5) |
主要颜色
color_series =['#FAE927','#E9E416','#C9DA36','#9ECB3C','#6DBC49','#37B44E','#3DBA78', '#228B22', '#0C8D7B']模型
Cronbach系数&KMO&巴特莱特检验
| Type | Data |
|---|---|
| 几个方面体验程度+如果愿意尝试您对以下几个方面期待程度(两数据混合?) | |
| 多分类logistic模型 | 性别--年龄--职业--收入--每周看直播时长--消费金额---频率--平均时长--10h愿意花多久--态度 |
| 基于PCA降维的k-means聚类 | 性别--年龄--职业--收入--每周看直播的时长--愿意尝试的程度 |
| 弹性网络(待定) |
更新问卷
题目:购买过的商品/服务类型 (多选)去哪儿了? 词云图数据唯一来源
14题 旧:对于以下商品您更愿意选择哪种购买途径(线下、网购、直播间)
新:以下商品您愿意在对对碰直播间下单的意愿程度(1-5)
17题推荐程度与16题态度两个问题重复,删掉推荐程度
观看过/购买过的人群有一道题目:对于不同方面的体验,没有观看但是愿意尝试的人群也有一道:对于几个方面的期待程度。我的想法是直接在构建模型的时候放在一起,某个方面体验/期待比较低反映了这种类型直播间的缺陷,但是不太确定这样做合不合理,分享下你们的看法
目前任务
更新问卷,之后尽快去收集
确定文章基本框架(一二三级标题),确定好之后我来画技术路线图
数据
共817条,有效数据812条
观看/购买过:421人
不愿意愿意尝试:81
无所谓:150
愿意尝试:160
词云图数据修改
问题14新增题目:及时解决问题、售后服务
对于看过/购买过的人群 新增问题:之后还会继续观看
实证分析
描述性统计
气泡图→3D瀑布图
堆叠柱状图→箱线图
| Type | Data |
|---|---|
| 词云图 | 购买过的商品 |
| ~~边际分布曲线×~~小提琴图√ | 不同年龄段 ---消费金额----态度 |
| 南丁格尔玫瑰图√ | 观看原因 |
| 雷达图√ | 不同性别 ----观看原因 |
| 矩形树图√ | 消费金额 |
| 漏斗图√ | 观看平台 |
| 气泡图× 3D瀑布图√ | 不同职业--频率---态度 |
| 堆叠柱状图× | |
| 环状饼图√ | 可以改进的地方 |
| ~~复合饼图×~~饼图√ | 渠道 |
模型
Cronbach系数&KMO&巴特莱特检验
| Type | Data |
|---|---|
| 几个方面体验程度+如果愿意尝试您对以下几个方面期待程度(两数据混合?) | |
| 性别--年龄--职业--收入--每周看直播时长--消费金额-----平均时长--10h愿意花多久--态度 | |
| 性别--年龄--职业--收入--每周看直播的时长--愿意尝试的程度 | |
| 弹性网络(待定) |
初稿修改
全局
图表 删标题+添加题注
所有符号及公式用mathtype / word自带公式编辑器来写
所有图/表设置好题注并居中,标明图/表X + 名称(就是X,最后统一标号),如 图X 主要购买商品词云图
第一章
综述的缺点
研究思路 + 图
数据分析→分类
因子分析→集成学习:随机森林 、梯度提升、SEM
第二章
调查目的
调查内容 现有+潜在 三线表
调查方法 文献研究法
抽样方法 配额抽样 三线表 方便抽样详细描述
数据分析方法 简洁化
预调查 详细内容
第三章
基本信息: 男女比例
词云、词云图 合为一小节 重新画词云图
缺失的图加上
性别与观看意愿
第四章
随机森林变量选择三线表添加解释
随机森林选择的原因 VIF
独热编码解释X_2→X_2_2 X_2_3 X_2_4
Gini变量角标
SEM结果解释
第五章
结论:可以改进之处 随机森林(因素分析) SEM 梯度提升
第六章
局限性 删减4567
截止时间 3.19 19:00
省赛修改
加一幅抽样分布图,以华中、华北...为单位,类似于这样

所有图像(描述性统计+梯度提升因素重要性图)和封面颜色一致,橙调
页眉美化?