清华大学-芝加哥大学经济与金融联合研究中心认为,向研究者提供开展突破性研究所需的工具十分重要。以下数据可通过联合中心资助购买,提供给芝加哥大学和清华大学经济学领域的学者使用。
可用数据资源
清华大学中国经济社会数据研究中心
清华大学中国经济社会数据研究中心是清华大学校级研究中心,2016年7月由国家统计局和清华大学合作共建。清华大学中国经济社会数据研究中心立足于国家统计局政府统计优势和清华大学学术研究优势,围绕中国经济社会数据开展研究,着力打造国内高端、国际一流的经济社会数据开发和研究团队。
数据介绍
2018年6月26日,国家统计局首次微观数据开发应用试点工作在清华大学中国经济社会数据研究中心正式启动,研究中心致力于推动中国政府微观调查数据在学术研究方面的深度开发应用,致力于推动产生更多原创性和高水平的科研成果。目前开发应用的微观调查数据包括:2012-2016年规模以上工业企业财务状况年度调查微观数据、2005/2008/2010/2013年住户收支调查微观数据、2013年住户收支与生活状况调查微观调查数据、2000/2010年人口普查微观数据、2015年1%人口抽样调查微观数据、第三次全国经济普查微观数据、第三次全国农业普查微观数据、2014-2016年企业跟踪调查微观数据。
1.规模以上工业企业财务状况年度调查微观数据
规模以上工业企业财务状况调查数据包括2012-2016年北京、上海、浙江三个省区的年度数据。在三个省区的规模以上工业企业中,按10%的比例随机抽取样本企业,并对企业数据进行了脱敏处理。数据包括资产负债类、损益分配类和其他三大类,主要有流动资产合计、固定资产原价、资产总计、流动负债合计、负债合计、实收资本、主营业务收入、主营业务成本、营业利润、利润总额和平均用工人数等32个指标。
2.住户收支调查微观数据
住户收支调查微观数据包括2005年、2008年、2010年和2013年城乡住户收支调查微观数据各1万户,共8万户。微观数据均已进行匿名化处理,仅保留省份信息。指标涵盖家庭基本情况、户人均收入情况、户人均消费情况、家庭基本设施等方面,城镇为40个指标,农村为32个指标。
3. 住户收支与生活状况调查微观调查数据
2013年住户收支调查微观数据库为全国住户收支与生活状况调查户级样本数据。全国住户收支与生活状况调查以省为总体,综合采用分层、多阶段、与人口规模大小成比例(PPS)和随机等距抽样相结合的方法抽选村级单位和调查户。全国共抽选约16万个调查户,覆盖约1800个县(区)。
本数据库是对2013年全国住户收支与生活状况调查数据样本户进行系统抽样获得的一个子样本,共包括2万户。每户数据指标共37个,涵盖城乡标识、户权数、户人均可支配收入、户人均消费支出、户耐用品拥有量等。
为防止个人特征的泄漏,数据库已进行匿名化处理,删除了能够辨识到住户的地理信息,仅保留省份信息。
4. 人口普查微观数据
人口普查微观数据库为2000年和2010年中国人口普查个体样本数据。中国人口普查采用了长、短两种普查表,短表包括反映人口基本状况的项目,长表包括所有短表项目和人口的经济活动、婚姻家庭、生育和住房等情况的项目。长表抽取了10%的户填报,短表由其余的户填报。本数据库是对普查表长表数据进行系统抽样获得,抽样比为0.995%,占总人口(不包含现役军人和难以确定常住地的人口)的比重为0.95‰。数据的主要结构指标对总体具有较好的代表性,能够满足大多数研究的需要。
数据库使用常住人口口径,数据涵盖性别、年龄、民族、户籍情况、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等相关指标。
为防止个人特征的泄漏,数据库已进行匿名化处理。
5. 人口抽样调查微观数据
2015年1%人口抽样调查微观数据库为中国2015年1%人口抽样调查个体样本数据。2015年全国1%人口抽样调查采取分层、二阶段、概率比例、整群抽样方法,在全国31个省、自治区、直辖市中抽取了2977个县(市、区),33671个乡(镇、街道),85365个村(居)委会的89147个调查小区。共调查登记常住人口2131万人,占全国总人口的1.55%。
本数据库是对2015年1%人口抽样调查数据进行系统抽样获得,占总人口(不包含现役军人和难以确定常住地的人口)的比重为1‰。数据库包括户记录432447条,人记录1371252条。
为便于用户正确使用数据,数据库提供了权数变量(户权数和人权数)。经过加权处理后,各地区的数据已经按全国统一的抽样比换算,可以直接对比。
数据库使用常住人口口径,数据指标涵盖姓名、性别、年龄、民族、户籍情况、受教育程度、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等60个相关指标。
为防止个人特征的泄漏,数据库已进行匿名化处理。
6. 全国经济普查微观数据
第三次全国经济普查微观数据是对第三次全国经济普查中的全部企业法人单位抽样取得,不包含金融和铁路系统单位,按照10%的比例进行抽样。为防止个人特征的泄漏,数据库已进行匿名化处理。数据分非工业企业、规模以下工业企业、规模以上工业企业三部分。
- 非工业企业
- 非工业企业的指标包括:行业大类代码、单位所在地行政区划代码、开业时间、从业人员期末人数、登记注册类型、企业控股情况、营业状态、营业收入、主营业务收入、资产总计、R&D人员合计、R&D人员折合全时当量、R&D经费内部支出、R&D项目数。
- 规模以下工业企业
- 规模以下工业企业指年主营业务收入在2000万元以下的工业法人企业。指标包括:行业大类代码、资产总计、实收资本、主营业务收入、从业人员期末人数等。
- 规模以上工业企业
- 规模以上工业企业指年主营业务收入达到2000万元及以上的工业法人企业。
7. 全国农业普查微观数据
第三次全国农业普查微观调查数据包括农业经营单位普查微观数据、农业经营户普查微观数据、农户普查微观数据、行政村普查数据和乡镇普查微观数据。
- 农业经营单位普查微观数据
- 第三次全国农业普查农业经营单位普查表微观数据公开样本是在第三次全国农业普查登记的全国200多万农业经营单位普查表数据记录中随机抽取的,包含约2万个农业经营单位的4206万笔普查数据。
- 样本包含了农业经营单位基本情况、聘用从事农林牧渔业和农林牧渔服务业人员情况、拥有或经营的耕地及耕地流转情况、农作物种植情况、确权或经营的林地及林地流转情况、牲畜或家禽饲养情况、确权或经营的牧草地(草场)情况、水产品养殖或捕捞情况、拥有的农用机械情况、农林牧渔生产经营特征情况等方面的指标。
- 农业经营户普查微观数据
- 第三次全国农业普查规模农业经营户普查表微观数据公开样本是在第三次全国农业普查登记的全国近400万规模农业经营户普查表数据记录中随机抽取的,包含约4万户规模农业经营户的3.2亿笔普查数据。
- 样本包含了规模农业经营户家庭基本情况、住房及生活情况、雇请从事农林牧渔业和农林牧渔服务业人员情况、确权或经营的耕地及耕地流转情况、农作物种植情况、确权或经营的林地及林地流转情况、牲畜或家禽饲养情况、确权或经营的牧草地(草场)情况、水产品养殖或捕捞情况、拥有的农用机械情况、农林牧渔生产经营特征情况等方面的指标。
- 农户普查微观数据
- 第三次全国农业普查中农户普查表微观数据公开样本是在第三次全国农业普查登记的全国约2.3亿农户普查表数据记录中随机抽取的,包含约23万户的9.6亿笔普查数据。
- 样本包含了农户家庭基本情况、住房及生活情况、确权或经营的耕地情况、农作物种植情况、确权或经营的林地情况、牲畜或家禽饲养情况、确权或经营的牧草地(草场)情况、水产品养殖或捕捞情况、拥有的农用机械情况、生产经营特征情况等方面的指标。
- 行政村普查微观数据
- 行政村普查数据样本是在全国约60万个行政村普查表数据记录中抽取的部分样本,包含约6万条村级单位数据。
- 本数据样本包含了行政村类型、地形地貌、全国特色景观旅游名村、基础设施配置等基本属性和基础设施的指标。数据涵盖了行政村基本情况、年末人口、社会保障、基本社会服务、土地经营及流转、农田水利、特色种养业、畜禽集中养殖小区、村集体经济组织财务、村干部情况等方面的指标。
- 乡镇普查微观数据
- 乡镇普查微观数据样本是在全国约4万个乡级单位普查表数据记录中抽取的部分样本,包含约4千条乡级单位数据。
- 本数据样本指标包含乡级类型、乡级属性、地形地貌等基本属性指标,还涵盖了乡级单位基本情况、交通设施、人口、经济、贸易市场、教育文化卫生、生活保障、公共事业等方面的指标。
- 上述所有微观数据均已进行脱敏处理。
8. 企业跟踪调查微观数据
- 数据来源
- 自2014年10月起,国家统计局会同原国家工商总局从工商登记制度改革实施后在工商行政管理部门新登记注册的小微企业和个体经营户中,抽取部分样本单位,按季度开展跟踪调查。本微观数据库数据来源于2014年3季度至2016年4季度的调查数据。
- 指标
- 包括单位基本情况、经济指标和问卷指标三大类,主要有行业代码、企业个体标识、资产总计、营业收入、从业人员期末人数、本季度的经营情况、本季度用工情况、本季度享受优惠政策情况、最关注的政策措施共9个指标。
应用成果
Hao, T. , Sun, R. , Tombe, T. , & Zhu, X. . (2020). The effect of migration policy on growth, structural change, and regional inequality in china. Journal of Monetary Economics.
联系方式
官方网站:http://www.tcdc.sem.tsinghua.edu.cn/
地址:清华大学舜德楼224
微信公众号:
北京道口金科科技有限公司
北京道口金科科技有限公司成立于2018年,是清华大学五道口金融学院互联网金融实验室孵化的金融科技平台。平台专注于企业大数据集聚,并依靠数据分析技术和人工智能算法,实现从企业全景数据到行业到产业的认知图谱,应用于数据风控、精准营销和研究分析等场景。2019年3月,公司的主要产品之一“星河企业大数据平台”(下简称“星河”)正式上线,“星河”产品汇聚1.8亿企业多维度数据,近千个产业链知识图谱和企业风控报告。
数据介绍
道口金科研发的星河企业大数据平台,逐步整合了政府公开数据、第三方数据平台数据和政策解读、行研、互联网舆情等自有数据,目前平台已经覆盖了超过1.8亿企业600多个维度的数据。星河企业大数据平台涵盖大数据主要包括以下几方面:
1.工商信息
- 企业基本信息:统一社会信用代码、纳税人识别号、成立日期、所属行业、企业地址、企业类型、登记状态、工商变更、人员规模、主要成员、分支机构等;
- 股权信息:股东信息(股东、投资金额、投资占比)、股权穿透图(最高可提供十级)、最终受益人信息、实际控制人信息等;
- 工商年报:年报中的变更信息、股东信息、企业基础信息、企业公布的财务信息等;
- 工商社保:包括企业的社保人数、五险的缴费基数等;
- 对外投资:企业对外投资行业,对外投资的企业数及详情等
2. 司法风险
- 裁判文书:裁判文书列表信息(包括标题、案号、案由、提交日期等)、裁判文书详情(包括裁判文书的文档等);
- 法院公告:开庭公告、立案信息等;
- 失信被执行情况:失信人信息、失信执行法院、日期等;
- 其他:包括司法拍卖、司法协助、行贿违法等。
3. 经营风险
- 经营异常:列入经营异常名录原因、作出决定机关、列入时间、移出时间、移出经营异常名录原因等;
- 工商行政处罚:处罚机构、发布时间、处罚内容等;
- 税收风险:欠税信息、重大税收违法、纳税信用信息等;
- 严重违法失信:严重违法失信的发布机构名称、发布时间、发布原因等;
- 股权出质:出质的股权份额、出质人、质权人等;
- 动产抵押:动产类型、抵押金额等;
- 股权冻结:股权冻结的状态、股权冻结的日期、冻结的法院、冻结详情等。
4. 科创信息
- 专利信息:专利名称、类型、申请日期、专利申请号、授权公布日、专利发明人、分类号、详细信息、授权公布日、申请人、专利代理机构、代理人等;
- 商标信息:企业的商标列表、注册号、分类码、分类名、申请日期、专用权期限、商标详情信息,商标图片链接、企业名称、最新更新时间、申请人地址、优先权日期、代理人等;
- 著作权信息:持有企业、版本号、著作类型、著作名称、完成时间等;
- 软件著作权信息:注册号、持有企业、版本号、著作权类型、著作权名称等;
- 域名信息:主页URL、备案许可证号、网站名称、主办单位性质等;
- 其他科创产出:承接政府科研项目、主导或参与标准制定情况、是否处于战略新兴产业、企业参与国家科技研发项目所发布的科技报告信息、获得科创资质情况等;
- 研发情况:研发资金、研发人员、实验室、科研工作站、人才引进与学历;
- 其它信息:展会信息(企业参加展会的信息,时间、地点、级别、展会名称等)。
5. 企业运营
- 行政许可:企业所获的的行政许可,发布机构、许可类型、发布时间等;
- 基于发票信息的企业销售情况分析:月均开票情况、开票间隔、开票波动情况、主营商品名称、销售商品类型、销售区域分布、商品税率分布、上下游分析、关联交易情况等;
- 招投标信息:企业所获得的招标类型、招标内容等;
- 海关进出口信息:进出口许可的发布机构、发布时间等;
- 土地信息:企业地块抵押、地块公示、土地转让等;
- 招聘信息:招聘企业名称、职位、薪水、职位描述、工作年限、工作地点、教育程度、发布日期、来源等);
- 舆情信息:企业新闻信息,包含标题、发布日期、介绍、来源、原文链接、舆情标签等。
6. 企业分析报告(由道口金科分析得到)
- 企业基础报告:基于企业工商、司法、知识产权、行政处罚等维度的企业基础报告;
- 企业经营报告:基于发票税务数据,剖析企业资产、上下游等信息,真实反应企业经营生产能力和盈利能力,涵盖企业工商、司法、知识产权、行政处罚、收入和支出、成本分析、上下游企业;
- 企业信用风险报告:根据企业的工商、司法、税务、财务等信息,量化企业信用,通过报告形式提供企业风险量化评价的结果
清华大学数据治理研究中心
清华大学数据治理研究中心成立于 2015 年 5 月,是清华大学融合数据科学与社会科学、聚焦政务大数据决策辅助的研究机构。中心以社会科学、数据科学、计算科学等跨学科融合为依托,旨在全面推进政府开放数据、社会经济数据、社会媒体数据的采集、分析与应用,并依此促进中国政府治理和社会发展。2020年6月,清华大学社会科学学院正式批文,决定将数据治理中心升级为院属研究机构。
数据介绍
中心建设有一个数据库、两个研究平台来服务政治学和经济学等相关研究,为研究人员提供系统的教学和科研支持,包括“中国政务大数据库”、“政府大数据分析平台”和“社会治理大数据平台”。
1.中国政务大数据库
该数据库现阶段已经积累了多项自主调查项目的数据,包括:
- 中国司法大数据库
涵盖中国刑事案件、民事案件、行政案件、赔偿案件、执行案件、其他案件等的裁判文书。
- 工商登记数据库
涵盖中国企业工商登记的相关信息,包括企业股东信息、变更记录、对外投资、主要人员、工商年报等信息。
- 中国政策法规文件数据库等
涵盖中国各层级政府机构,包括部委、省、市、县等级别政府的各类政策法规文件。
- 政府回应性大数据库
本数据库从多渠道获取了政府回应性数据,包括社交平台、政府热线电话、政府资讯平台、政府官网等。
- 中国反腐大数据库
- 2015年中国城乡社会治理调查
中国城乡社会治理调查(China Social Governance Survey,简称CSGS2015)旨在对于中国居民的生活、经济、治理等各个方面进行广泛深入的调查研究,重在调查中国城乡社会治理现代化的情况。CSGS2015是目前可以获得的关于中国公众政治态度的质量最高的调查数据之一。调查问题设计参考了既有的研究文献,并根据中国政治与国情的特点进行表述,包括询问公众对于政治制度的信心、人际信任和价值观倾向、对于国家整体治理状况的感知(包括政治参与、人大监督、政府回应、政治自由和腐败状况五个维度)等内容。
- 2015年和2018年中国城市治理调查
- 2013-2017年中国地方党政干部调查
- 2015年、2017年和2019年协商民主调查数据
2. 政府大数据分析平台
政府大数据分析平台聚焦政务大数据,为研究人员提供政府网站、网络问政平台、政务热线、法规政策文件等政务数据的采集和分析服务。
3. 社会治理大数据平台
社会治理大数据平台旨在为政治学科结合理论分析与定性、定量、实验等研究方法开展高水平研究提供数据服务,平台长期开展问卷调查和实验研究,向研究人员提供调查实验软件编程、调查实施和数据分析等支撑,致力于推进有关城市治理、社会治理、社区治理等科研创新。
联系方式
微信公众号:PoliticalScience-THU