Python实证指标构建与文本分析【2024】 – 百度网盘 – 下载

图片[1]-Python实证指标构建与文本分析【2024】 – 百度网盘 – 下载-萌萌家图书馆

课程纲要
课程目标: 掌握Python语法、网络爬虫、数据分析Pandas、文本分析、机器学习的核心知识点和分析思路

核心知识点: 爬虫原理及应用、 非结构化文本数据挖掘的思路及方法、机器学习应用等

环境配置: 安装Python,注意安装过程中勾选Add Anaconda 3.x to PATH

课件资料: 本课程全部使用jupyter notebook文件作为课程课件

课程特色
接地气: 以经管学术需求为导向, 将Python分为语法篇、采集数据篇、文本分析篇、机器学习篇四大部分

好理解: 知识点力求通俗易懂,少了晦涩的计算机术语,多了通俗易懂的使用场景和实战讲解

上手快: 所有知识点均有可重复使用的代码块,犹如一块块的积木,课后您可以根据分析需要,快速搭建出自己的Python代码

一、准备
课程介绍

Win中的Python配置

Mac中的Python配置

二、Python语法入门
Python跟英语一样是一门语言

数据类型之字符串

数据类型之列表元组集合

数据类型之字典

数据类型之布尔值、None

逻辑语句(if&for&tryexcept)

列表推导式

理解函数

常用的内置函数

内置库文件路径pathlib库

内置库csv文件库

内置库正则表达式re库

初学python常出错误汇总

三、数据采集
网络爬虫原理

网络访问requests库

网页解析pyquery库

案例 豆瓣读书

案例 Boss直聘

如何解析json数据

案例 豆瓣电影

案例 京东商城

案例 用爬虫下载文档及多媒体文件

案例 上市公司定期报告pdf批量下载

案例 上交所招股说明pdf批量下载

案例 深交所招股说明pdf批量下载

爬虫知识点总结

四、数据分析
Pandas基础知识

数据去重与缺失值处理

合并数据

重塑数据

选取表中指定记录(行)

选取表中指定字段(列)

描述性统计

在表中创建新字段(列)

批操作apply与agg

透视表pivot_table

数据分组groupby

时间序列时间点创建

日期数据的dt属性

日期行索引操作(选取指定日期的数据)

时间序列date_range

时间序列重采样resample

时间序列时间窗口rolling

案例 Kaggle titanic数据集探索性分析

案例 Boss直聘Python岗位分析

五、初识文本分析
从编码解码视角重新理解文本

读取不同格式文件中的数据

实战之如何将多个整理到一个excel中

案例 中文分词及数据清洗

案例 词频统计&词云图

案例 中文情感分析(词典法)

案例 对excel中的文本进行情感分析

案例 共现法扩展情感词典(领域词典)

案例 词向量word2vec扩充领域词典

cntext库 情感分析

案例 计算文本的语言具体性 | 以JCR2021论文为例

案例 使用LM金融词典对年报进行 「语调分析」 | 管理世界

案例 使用md&a数据测量企业数字化 | 管理世界、财经研究

案例 使用md&a数据构建标准信息、信息含量 | 中国工业经济

六、机器学习与文本分析
了解机器学习

使用机器学习做文本分析的流程

scikit-learn机器学习库简介

文本特征抽取(特征工程)

案例 在线评论文本分类

使用标注工具对数据进行标注

案例 计算文本情感分析(有权重)

案例 文本相似性计算

案例 使用文本相似性识别变化(政策连续性)

案例 央行货币政策文本相似度计算&可视化 | 金融研究

案例 Kmeans聚类算法

案例 LDA话题模型

从图片中提取文本信息

七、词嵌入与认知
词嵌入原理及应用概述

案例 豆瓣影评-训练词向量&使用词向量

案例 使用词向量做话题建模

案例 认知指标(态度、偏见等)的测量

总结-文本分析在经管领域中的应用

© 版权声明
THE END
联系作者 微信 wedaxue bedaxue
点赞9