该项目包含多个爬虫模块,涵盖了猫眼电影、天气预报、豆瓣Top读书和电影、B站、微博等多个领域。爬取的数据将保存在对应的 CSV 文件中,且每个模块都有相关的数据可视化代码(部分代码不具有通用性)。
- 基本功能:爬取猫眼电影的实时票房数据(包括综合和分账票房),并进行可视化分析。运行
source/main.py将自动生成对应的 CSV 文件和图表,数据存储在同目录的dataset文件夹中。 - 改进:
- 增加了图片识别模型,可识别画出的数字(原方法是通过找规律来破解)。
- 可选择显示环形图,增强了可视化效果。
- 基本功能:爬取天气网中的数据,进行可视化分析。通过运行
sources/begin.py,输入城市名称(中文)即可生成对应的天气图表。 - 改进:
- 地点支持精确到乡镇级别,增加了数据的准确性。
- 基本功能:使用 Beautiful Soup 爬取豆瓣 Top250 的书籍、电影及科幻电影的相关信息,还包括使用正则表达式的爬虫示例。
- booksTop250:爬取豆瓣读书 Top250 的相关数据。
- filmsTop250:爬取豆瓣电影 Top250 的相关数据。
- 电影Top250(正则版):全程使用正则表达式爬取,不依赖 BeautifulSoup。
- 豆瓣科幻电影:涉及动态网页渲染技术的爬虫实现。
- “每周必看”:
- 基本功能:爬取 B站每周必看排行榜信息。由于网页使用动态渲染,因此采用了 API 结合的方式来进行数据抓取。
- 改进:支持爬取近一年的数据,时间范围可自定义。
- 加强版:解决了反爬机制问题,使用了 Cookie 来绕过反爬机制。
- 视频细节:从“每周必看”页面获取详细的视频信息,进一步分析相关内容。
- 基本功能:爬取微博热搜榜、文娱榜和要闻榜的相关信息。
- 改进:对代码进行了优化,提升了运行效率和稳定性。
- 基本功能:爬取 Metacritic 网站上的游戏数据。
- PCAndSwitch:获取 2003-2024 年间 PC 和 Switch 端的游戏数据。
- detail_data:通过游戏网址进一步爬取更详细的游戏信息。
- 基本功能:爬取第三方网站中每个地区的 Pokémon 数据。
- 地区图鉴:每次只能爬取一个地区的图鉴,修改网址即可继续抓取其他地区的数据。
- 阿罗拉和洗翠图鉴:这两个地区的图鉴较为特殊,无法使用地区图鉴方法进行爬取。
注意:所有爬虫代码下载即用,不用于商业用途。