Skip to content

包含猫眼电影、豆瓣、b站、微博、天气预报、Metacritic、Pokemon图鉴等,爬取信息并保存在对应的文件中。

Notifications You must be signed in to change notification settings

Rasrea/python-spider

Repository files navigation

Python Spider 项目

该项目包含多个爬虫模块,涵盖了猫眼电影天气预报豆瓣Top读书和电影B站微博等多个领域。爬取的数据将保存在对应的 CSV 文件中,且每个模块都有相关的数据可视化代码(部分代码不具有通用性)。


主要功能

🐱 猫眼电影

  • 基本功能:爬取猫眼电影的实时票房数据(包括综合和分账票房),并进行可视化分析。运行 source/main.py 将自动生成对应的 CSV 文件和图表,数据存储在同目录的 dataset 文件夹中。
  • 改进
    • 增加了图片识别模型,可识别画出的数字(原方法是通过找规律来破解)。
    • 可选择显示环形图,增强了可视化效果。

详细教程请参考CSDN文章


🌍 全球天气预报(近七天)

  • 基本功能:爬取天气网中的数据,进行可视化分析。通过运行 sources/begin.py,输入城市名称(中文)即可生成对应的天气图表。
  • 改进
    • 地点支持精确到乡镇级别,增加了数据的准确性。

详细教程请参考CSDN文章


📚 豆瓣

  • 基本功能:使用 Beautiful Soup 爬取豆瓣 Top250 的书籍、电影及科幻电影的相关信息,还包括使用正则表达式的爬虫示例。
    • booksTop250:爬取豆瓣读书 Top250 的相关数据。
    • filmsTop250:爬取豆瓣电影 Top250 的相关数据。
    • 电影Top250(正则版):全程使用正则表达式爬取,不依赖 BeautifulSoup。
    • 豆瓣科幻电影:涉及动态网页渲染技术的爬虫实现。

🎥 B站

  • “每周必看”
    • 基本功能:爬取 B站每周必看排行榜信息。由于网页使用动态渲染,因此采用了 API 结合的方式来进行数据抓取。
    • 改进:支持爬取近一年的数据,时间范围可自定义。
    • 加强版:解决了反爬机制问题,使用了 Cookie 来绕过反爬机制。
    • 视频细节:从“每周必看”页面获取详细的视频信息,进一步分析相关内容。

🐦 微博三榜

  • 基本功能:爬取微博热搜榜、文娱榜和要闻榜的相关信息。
  • 改进:对代码进行了优化,提升了运行效率和稳定性。

🎮 Metacritic

  • 基本功能:爬取 Metacritic 网站上的游戏数据。
    • PCAndSwitch:获取 2003-2024 年间 PC 和 Switch 端的游戏数据。
    • detail_data:通过游戏网址进一步爬取更详细的游戏信息。

🧸 Pokemon 图鉴

  • 基本功能:爬取第三方网站中每个地区的 Pokémon 数据。
    • 地区图鉴:每次只能爬取一个地区的图鉴,修改网址即可继续抓取其他地区的数据。
    • 阿罗拉和洗翠图鉴:这两个地区的图鉴较为特殊,无法使用地区图鉴方法进行爬取。

注意:所有爬虫代码下载即用,不用于商业用途

About

包含猫眼电影、豆瓣、b站、微博、天气预报、Metacritic、Pokemon图鉴等,爬取信息并保存在对应的文件中。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published