航空公司社媒情感数据集

⏱ 2026年3月24日▣ 数据集机器学习◔ 460

详情介绍

“

这是一份适合做社媒情感分类和客户舆情分析的推文数据集，包含航空公司相关文本与情感标签，适合做文本分类、负面原因分析和客服体验研究。

这是一份围绕社交媒体文本整理的结构化情感分析数据集，适合用于文本分类、舆情观察和情绪识别研究。当前文件共包含 14,640 条记录和 15 个字段，能够直接进入清洗、向量化和建模流程。

从字段组织方式看，这份数据集既可以支撑标准的情感分类任务，也可以扩展到品牌舆情、平台差异或传播效果分析。样本中的主要字段包括 tweet_id, airline_sentiment, airline_sentiment_confidence, negativereason, negativereason_confidence, airline, airline_sentiment_gold, name 等，既能支撑模型训练，也能支撑业务解释。

1. 数据集概览

这份数据集是一份适合做社媒情感分类和客户舆情分析的推文数据集，包含航空公司相关文本与情感标签，适合做文本分类、负面原因分析和客服体验研究。

这类社媒数据的优势在于文本短、情绪表达直接、业务问题明确，很适合做课程设计、作品集展示和轻量级 NLP 项目。

2. 数据规模与字段

当前使用的数据文件包含 14,640 行、15 列。按字段作用可大致划分为以下几组：

字段分组	代表字段	说明
推文与情感标签	text, airline_sentiment, airline_sentiment_confidence	描述推文正文、情感标签和标注置信度
品牌与负面原因	airline, negativereason, negativereason_confidence	用于分析不同航空公司的舆情表现和负面归因
时间与用户信息	tweet_created, tweet_location, user_timezone, retweet_count	支持传播背景和发布时间维度分析

其中，目标字段 airline_sentiment 是当前最适合优先关注的分析对象。从缺失情况看，negativereason_gold 约为 99.78%、airline_sentiment_gold 约为 99.73%、tweet_coord 约为 93.04%，其余字段完整度较高。

3. 适合的任务方向

这份数据集可以直接支撑以下任务方向：

推文情感分类与多分类建模
负面情绪原因识别
航空品牌客服体验与舆情对比

如果用于课程设计或作品集展示，这类数据集的优势在于既能完成文本清洗、特征提取、模型比较和可视化流程，又容易形成有业务含义的社媒分析结论。

4. 数据质量与使用建议

这份数据集同时包含文本、品牌、负面原因和时间信息，适合做社媒情感分析的完整演示。需要注意推文原文包含噪声、缩写、表情和提及信息，建模前需要做好文本清洗。部分坐标和地理信息字段存在大量缺失，因此更适合把正文和标签作为主分析对象。

如果重点做情感分类，建议优先保留 text、airline_sentiment、airline 和 negativereason 等核心字段。若用于业务分析，可进一步比较不同航空公司的负面原因分布和负面情绪集中时段。

5. 数据观察与可视化

下列图表使用 matplotlib 基于真实数据样本自动生成，重点展示数据宏观概览、缺失值初筛和探索性分析结果。

6. 适合的项目场景

适合做品牌舆情监测、客服情绪分析、社媒投诉分类和文本分类课程设计。

在展示层面，这类数据集也适合做列表页摘要、详情页图文介绍和情绪趋势图表页面，能够同时满足 NLP 建模展示和社媒舆情说明两种需求。

7. 数据集亮点

文本和情感标签完整，适合标准情感分析流程
同时提供负面原因字段，便于业务解释
体积小于 20MB，适合快速落地项目
很适合做多分类情感分析展示