MobileInternetTechnology

国科大移动互联网技术第三章爬虫和nlp部分四次作业

作业一

URILIB+正则表达式 Ucas网站邮箱、电话号码的爬取
从人民网上抓取最新栏目中的文章：要求完成的：文章的标题、链接和来源
Jd网站手机图片的爬取

作业二

从学校信息门户网站网站上抓取：学校概况、组织机构等名称，包括该名称下的目录名称。
人民邮电出版社推荐书下载
要求抓取：每个学科下的推荐书，书名以及价格
使用： requests
结果保存到数据库中

作业三

淘宝网站登录
使用：requests和cookies
使用scrapy自动登录学校信息门户网站
（1）判断是否有验证码，如果有验证码可需要获取验证码，然后登录
（2) 登入成功后，获取该网页下的各个条目的名称（如课程网站等等），已经连接。
使用Scrapy爬取Ucas网站教学科研的新闻
要求爬取：新闻的标题、链接和日期，实现多页爬取
分别使用：基本爬虫和自动爬虫

作业四

改进例子程序：4-5-使用集合的交并计算相似性-2.py
要求：通过标点符号将文章分成多个句子，然后再使用该例子程序的方法。
根据Ucas网站的内容，查找和关键字（比如“国科大、课题组，研究、计算机学院”）最接近的网页，输出网页的题目和链接。