Skip to content

微博数据采集,微博爬虫,微博网页解析,完整代码(主体内容+评论内容)

Notifications You must be signed in to change notification settings

zhouyi207/WeiBoCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

87 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

WeiBoCrawler

WeiBoCrawler

欢迎使用本项目做微博数据采集 🤗

😁该项目是什么?

该项目主要用于对微博进行数据采集,包括微博详细页内容、微博评论内容、微博转发量、微博点赞量,微博评论量等信息,方便做学术研究时采集数据。

😋为什么使用本项目?

  • 简单: 快速上手,只需几行代码即可完成数据采集。
  • 高效: 采用异步请求和异步存储的方式,大大提高数据采集效率。
  • 可视化: 利用 streamlit 编写了一个可视化界面,方便用户进行数据采集和数据查询。
  • 数据库: 将 tinydb 改为 SQL 数据库,可以连接自定义数据库。
  • Cookies: 不需要手动输入 cookies,扫码自动获取 cookies。

🚤快速上手

1. 下载本项目

在指定目录下使用 git 命令克隆本项目下载本项目的 zip 包然后解压

git clone https://github.com/zhouyi207/WeiBoCrawler.git

2. 安装依赖

在项目根目录下使用 pip 命令安装依赖,注意这里的 Python 版本是 3.10 版本。

pip install -r requirements.txt

3. 运行程序

在项目根目录下使用 streamlit 命令运行程序

streamlit run web/main.py

成功运行🥳🥳🥳

🎨 界面展示

1. 列表搜索

列表搜索

2. 详细页搜索

详细搜索

3. 一级评论搜索

一级评论搜索

4. 二级评论搜索

二级评论搜索

5. SQL 数据库查询

SQL 数据库查询

🧑‍🎓项目相关

1. 主体处理

2. UID 和 MID

3. 数据流向

📱联系

⚠️⚠️⚠️ 注意事项

本项目仅用于学术研究,请勿用于商业用途

About

微博数据采集,微博爬虫,微博网页解析,完整代码(主体内容+评论内容)

Topics

Resources

Stars

Watchers

Forks

Packages

No packages published