数据集 | 将睡前消息文稿整理至一个csv中

大邓和他的Python

共 3752字,需浏览 8分钟

 · 2023-03-11

一直有观看马前卒工作室睡前消息的习惯, 感觉他的内容很理性, 透露着马列科学社会风。引爆全网的两个话题独山县债务问题、以岭药业连花清瘟胶囊事件。数据可以拿来练习词频统计、词云图制作、情感分析、lda话题建模。已整理为csv文件,留给需要的人


一、原始数据

『睡前消息』截止2023年3月6日,已经更新至559期. 文稿资源来自

https://archive.bedtime.news/zh/main

原始数据集下载下来是这个样子


数据集文件夹的目录树结构

- 睡前消息文本 第1-100期
    |- 001-010期
       |- 2019 07 12 第一期.docx
       |- 2019 07 16 第二期.docx
       |- 2019 07 19 第三期.docx
       |- 2019 07 23 第四期.docx
       |- ...
    |- 011-020期
    |- 021-030期
    |-...
- 睡前消息文本 第101-200期
- 睡前消息文本 第201-300期
- 睡前消息文本 第301-400期
- 睡前消息文本 第401-500期
- 睡前消息文本 第501-最新
- bedtime_news.csv
- code.ipynb

一、整理数据

原始数据docx文件存储,数据集是2层文件夹结构。可以使用glob库提供文件路径识别功能

import os
import glob
import csv
from pdfdocx import read_docx

with open('bedtime_news.csv''w', encoding='utf-8', newline=''as csvf:
    fieldnames = ['date''name''text']
    writer = csv.DictWriter(csvf, fieldnames = fieldnames)
    writer.writeheader()

    # 使用glob模块查找所有的docx文件路径
    docx_files = glob.glob("**/*.docx", recursive=True)
    docx_files = [f for f in docx_files if 'DS' not in f]

    # 输出所有docx文件路径
    for file_path in docx_files:
        print(file_path)
        file_name = re.sub('\s''', file_path.split('/')[-1])
        if file_name.startswith('22'):
            file_name = '2022'+ file_name[2:]
        date = re.findall('\d{8}', file_name)[0]
        episode = re.sub('.docx''', file_name.replace(date, ''))
        text = read_docx(file_path)
        data = {"date": str(date), 
                "name": file_path,
                "text":text}
        writer.writerow(data)

二、导入csv

import pandas as pd

df = pd.read_csv("bedtime_news.csv", converters={'date': str})
df.head()

Run


len(df)

Run

522

获取方式

链接: https://pan.baidu.com/s/1Qor_FNBnGuTsq4NpF3vzVQ 提取码: t8pq



精选文章

管理世界 | 使用文本分析词构建并测量短视主义

管理世界 | 使用 经营讨论与分析 测量 企业数字化指标

管理世界 | 用正则表达式、文本向量化、线性回归算法从md&a数据中计算 「企业融资约束指标

可视化 | 词嵌入模型用于计算社科领域刻板印象等信息(含代码)

词嵌入技术在社会科学领域进行数据挖掘常见39个FAQ汇总

文本分析 | 中国企业高管团队创新注意力(含代码)

文本分析 | MD&A 信息含量指标构建代码实现

金融研究 | 使用Python构建「关键审计事项信息含量」

使用 Word2Vec 和 TF-IDF 计算五类企业文化

支持开票 | Python实证指标构建与文本分析

金融研究 | 文本相似度计算与可视化

转载 | 社会计算驱动的社会科学研究方法

推荐 | 社科(经管)文本分析快速指南

视频分享 | 文本分析在经管研究中的应用

如何用「图嵌入」将企业、高管职业经历表征为向量数据

JM2022综述 | 黄金领域: 为营销研究(新洞察)采集网络数据

可视化 | 绘制《三体》人物关系网络图

MS | 使用网络算法识别创新的颠覆性与否

认知的测量 | 向量距离vs语义投影

Asent库 | 英文文本数据情感分析

PNAS | 文本网络分析&文化桥梁Python代码实现

PNAS | 使用语义距离测量一个人的创新力(发散思维)得分

tomotopy | 速度最快的LDA主题模型

数据集 | cctv新闻联播文稿数据

浏览 16
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报