碎片采集
SparkNoteAI 支持从多个内容平台采集碎片化信息,统一归集到知识管理系统中。
支持的平台
| 平台 | 说明 |
|---|---|
| 微信公众号 | 抓取微信文章全文,自动处理中文标点,提取原始标签 |
| 小红书 | 导入小红书笔记内容 |
| B 站 | 采集 B 站视频信息和评论 |
| YouTube | 采集 YouTube 视频信息和字幕 |
工作原理
- 提交任务:在前端输入内容链接或粘贴内容
- 异步处理:后台通过 Redis-backed 任务队列异步执行导入
- 状态跟踪:实时查看任务进度(排队中 → 处理中 → 完成/失败)
- 内容归集:导入成功后内容自动归类为碎片,可在碎片页面查看


任务管理
- 任务列表支持分页展示
- 实时查看任务状态和进度
- 失败任务可查看错误信息
HTML 内容处理
导入过程中自动处理:
- HTML 标签清理和转换
- 中文标点符号优化
- 图片链接提取和下载
- 平台原始标签映射为系统标签