# postGraduate **Repository Path**: VanGy-code/postGraduate ## Basic Information - **Project Name**: postGraduate - **Description**: A Scrapy crawlSpider for crawling the information of postgraduate schools in China - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2021-01-23 - **Last Updated**: 2021-08-12 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Scrapy for information of postgraduate college(Scrapy通用爬虫爬取国内考研信息资讯)   [](https://codebeat.co/projects/github-com-colordoge-postgraduate-master)   - [Scrapy for information of postgraduate college(Scrapy通用爬虫爬取国内考研信息资讯)](#scrapy-for-information-of-postgraduate-collegescrapy通用爬虫爬取国内考研信息资讯) - [一、项目目标](#一项目目标) - [二、编译环境以及准备工作](#二编译环境以及准备工作) - [三、使用技术介绍](#三使用技术介绍) - [四、爬取思路](#四爬取思路) - [五、爬取分析](#五爬取分析) - [六、项目进度](#六项目进度) - [(一)新建项目及项目配置](#一新建项目及项目配置) - [(二)定义 Rule(获取链接的规则)](#二定义-rule获取链接的规则) - [(三)解析页面(数据提取)](#三解析页面数据提取) - [(四)数据清洗](#四数据清洗) - [(五)通用配置抽取](#五通用配置抽取) - [(六)数据存储](#六数据存储) - [七、使用说明](#七使用说明) ## 一、项目目标 ___ 本项目的主要目标是爬取[中国研究生招生信息网](https://yz.chsi.com.cn)的信息库。其中包括院校信息的院校简介、下属学院设置、招生政策布、网上报考公告以及调剂政策。专业信息包括,专业所属科目、专业门目、专业代码称。 其次,通过爬去其他提供可靠研究生招生信息的网站,如[考试点](http://m.kaoshidian/.eb),加以对比和筛选数据,增强数据可靠性。 ## 二、编译环境以及准备工作 ___ 1.python 2.Scrapy 框架 Scrapy 是一个基于 Twisted 的异步处理框架,是纯Python 实现的爬虫框架,其架构清晰,板块之间的榈合程度低,可扩展性极强,可以灵活完成各种需求。我们只需要定制开发几个模块就可以轻松实现一个爬虫。 3.Splash 4.MySQL ## 三、程序结构 ___