寒假Stata编程技术定制培训班

开始报名啦!

 

 

爬虫俱乐部将于2019年1月19日至25日在武汉举行两期Stata编程技术定制培训,此次采取初级班和高级班分批次培训模式,采用理论与案例相结合的方式,旨在帮助大家熟悉Stata核心的爬虫技术,以及Stata与其他软件交互的高端技术。目前还有少量名额大家抓紧时间报名啦!

初级班主要是为了让学员掌握Stata数据分析技巧,并能独立撰写简单的程序。涉及的主要内容有多种复杂数据的读取和输出、数据的合并、各种数据整理的技巧、绘图、实证结果的输出以及我们团队自己编写的一些命令的介绍。全部课程采用案例教学的模式,经过爬虫俱乐部团队多年的精心策划,我们选择了合理的内容和恰当的顺序,通过20多个教学案例,帮助大家在较短的时间内掌握Stata软件与金融计算的核心技术和方法,教大家如何用Stata软件做实证,同时也让大家熟悉一些常见的Stata爬虫技术。

高级班主要是为了让学员熟练掌握Stata网络爬虫技术和文本分析技术,内容主要包括正则表达式和爬虫技术以及文本分析技术等相关介绍,经过团队精心策划,为大家深入浅出地讲解Stata各种文本处理方法。

爬虫俱乐部已多次举办线下培训活动,曾经在武汉大学、华中科技大学、中央财经大学、中南财经政法大学、华中农业大学、郑州大学、河南大学、福州大学、长沙理工大学、湖北大学和湖北经济学院等进行师资和研究生实证方法的培训,获得了一致的好评。爬虫俱乐部的公开培训也进行了十场,场场爆满座无虚席。

我们会继续努力,以培养学生、技术研发为己任,在少量盈利的基础上,努力将公益事业做好,传播实证技术和数据分析方法、开发数据分析的工具等,造福于学术界!

授课老师简介

李春涛

大学教授、博士生导师;香港大学博士;主要研究领域是公司治理和企业创新,在《经济研究》、《金融研究》、Journal of Comparative Economics等主流期刊上发表学术论文三十余篇。李老师是Stata统计软件的资深用户,有20多年的Stata编程经验,他有十多名学生正在或曾经在海外名校从事研究助理工作。

薛原

华科博士生,爬虫俱乐部高级成员,擅长Stata编程、正则表达式、字符串处理及网络爬虫技术。与李老师合作开发了chinagcode、chinaaddress、cnintraday、cnstock、subinfile、reg2docx、sum2docx、wordconvert等重要命令,实现了中文地址与经纬度之间的转换,中国上市公司股票代码和分时交易数据的获取以及修改文本文件,在《金融研究》发表过文章。

张计宝

中南财经政法大学金融学博士生,爬虫俱乐部高级成员,擅长Stata编程、正则表达式、文本分析、字符串处理及网络爬虫技术。拥有丰富的Stata教学与数据处理项目经验,多次担任爬虫俱乐部Stata线下培训讲师。

初级班培训内容

 
 

第一部分:初识Stata与数据读入






       1)熟悉界面(菜单栏、工具栏、命令输入窗口、历史命令窗口、结果输出窗口等)

2)读入Stata格式的数据(use)

3)寻求帮助(在线帮助、搜索帮助、人肉帮助)

4)DOS命令(cd、mkdir、dir、erase、rm、rmdir、copy、type、shell等)

5)Winexec调用windows系统(播放音乐、打开、关闭浏览器等)

6)Copy命令(文件转移、文件重命名、网络文件读取、网页源代码读取)

7)常用命令(常用的30个命令:keep  drop  use  save  table  browse等)

8)日期定义(Stata可识别的日期和时间格式、主要日期函数、时间函数等)

9)函数(数学函数、字符串函数、随机函数、编程函数等)

10)egen函数(egen与bysort结合、egen与常见统计量结合等)

11)读入TXT、CSV文件(万德交易数据为例)

12)Excel文件 (单个Excel文件、单个Sheet的读入与保存)

13)固定宽度的txt文件(构造固定宽度数据,用命令读入)

14)分行显示的txt文件(构造分行显示的固定宽度数据,用命令读入)

15)基金经理变更案例(不规则数据的整理、数据搬家与填充)

 

第二部分:宏与循环





       1)Local概念与基本操作(如何定义local)

2)global概念与基本操作(与local的区别)

3)宏扩展函数(将dis结果、dir结果等赋值给local)

4)while 循环

5)forvalue 循环

6)跳出循环的continue 和continue, break

7)NBER工作论文下载案例(forvalue循环与copy命令)

8)上交所年报抓取案例(forvalue循环,日期函数、容错命令cap、循环过程中的终止)

9)foreach循环, 读入多个csv文件(以wind交易数据为例)

10)获取文件夹中文件名列表(fs命令)并对多个文件循环

11)获取一个变量的取值列表(levelsof命令)并对变量的多个取值进行循环

12)读入多个Excel的多个Sheet案例(以csmar交易和财务数据为例)

 

第三部分:数据库操作





       1)数据的纵向合并(CSMAR交易数据、cntrade命令、工企数据库运用)

2)数据的横向合并 (财务数据为例)

3)数据长宽变换 (wind财务数据、多列变一列reshape,stack命令)

4)美国流行歌曲目录案例(reshape命令长变宽)

5)起死回生(preserve restore命令)

6) CSSCI期刊目录案例(preserve restore一列变多列)

7) label(文件label、变量label、观测值label)

8)用label找变量(labelsof、label 的宏扩展函数)

9)字符串处理(长度、关键词、替换、提取、寻找总经理、寻找董事长、两职合一)

 

第四部分:Post命令与网络爬虫入门





       1)post 原理

2)定义post

3)用post计算同步性和Beta

4)基于网络数据的事件研究

5)股本变更数据

6)新浪公告数据抓取

7)新浪高管任职数据抓取

 

第五部分:绘图





       1)基本统计图形的绘制

    a)散点图:twoway scatter

    b)折线图:twoway line

    c)连线图:twoway connected

    d)连线阴影图:twoway area

    e)柱状图: twoway bar

    f)直方图: twoway histogram

    g)条形统计图:graph bar

    h)饼图:graph pie

2)基本统计图形属性:颜色、形状、大小、标签、位置、坐标轴、图例等

3)复杂图形的绘制(多个图形在同一个图形中的显示,多个坐标轴的绘画等)

4)透明图片的绘制

5)命令grss的运用

6)图形的保存、合并和输出

7)中国地图的绘制

8)DID的平行性趋势检验图形绘制

9)断点回归的图形绘制

 

第六部分:回归分析及结果输出





      1)输出表格或图形到WORD文档、EXCEL文档和PDF文档:putdocx、putpdf、putexcel

2)基本统计信息:sum2doxc

3)分组检验:t2docx

4)相关系数矩阵:corr2docx

5)简单线性回归:reg2docx

高级班培训内容

 
 

第一部分:正则表达式





      1)正则表达式基本函数介绍

    a)ustrregexm()

    b)ustrregexs()

    c)ustrregexrf()与ustrregexra()

2)正则表达式元字符介绍

    a)基本元字符

    b)数量元字符

    c)位置元字符

    d)前后查找

    e)特殊字符元字符

    f)回溯引用

    g)unicode编码

3)正则表达式匹配模式

    a)贪婪模式

    b)懒惰模式

4)正则表达式例子

    a)邮编提取

    b)英文姓与名的拆分

    c)CSSCI数据预处理

    d)百度新闻数量

    e)城市名称提取

    f)pdf表格数据的提取

    g)英文姓名的拆分

    h)用正则表达式表示日期

5)正则表达式相关命令

   a)moss命令与简单的词频统计

   b)subinfile命令对文本文档进行操作

 

第二部分:网络爬虫



 

1)爬虫初步

    a)新浪高管任职数据抓取

    b)NBER Working Paper信息的抓取

2)寻找真实链接

    a)和讯网港股数据

    b)深交所信息披露质量

    c)百度新闻逐年结果数

3)调用curl

    a)新浪财经港股数据

    b)环保部AQI

 

第三部分:文本分析



 

1)分词原理

2)分词的实现

    a)ustrwordcount()和ustrword()

    b)调用Python的jieba和pynlpir

    c)Bosonnlp的API

    d)词频统计

3)高亮输出文章重点

4)词云图的实现

5)情感分析原理

6)情感分析的实现

    a)Bosonnlp

    b)构建词库计算情感值

    c)大众点评日料评论情感分析

培训目的

 

本次培训通过具体的案例对每部分技术进行讲解,力图使大家掌握Stata的基本命令、编程、数据处理以及抓取网络数据的方法。专题式的讲解使您能在短时间内掌握Stata的精髓,精选的实例和翔实的配套资料能让您在课后快速拓展所学,并能够编写一些实用的Stata程序,为进一步学习和科研打下扎实的基础。希望通过本次培训,各位学员能对Stata软件有更深入的认识,并在其工作岗位上有更出色的表现。

培训对象

 

国内高校教师、硕士生、博士生、科研院所科研人员、社会团体及Stata爱好者。

报名方式

 

即日起发送“报名回执表(请点击文末阅读原文获得报名回执表)+支付截图”至邮箱:statatraining@163.com,邮件主题为:“爬虫俱乐部2019寒假培训+姓名+单位+班次”。