在逛 GitHub 的时候,发现了两个好玩的 AI 开源项目。
EasyPhoto 类似前段时间曝火的妙鸭相机,你上传几张自己的肖像照片,他会批量生成好很多精致的证件照、艺术照。
AudioNotes 是一个是能够把自动音频转化成 Markdown 笔记的学习利器。
01
EasyPhoto:AI 肖像画生成
EasyPhoto 是一款 Webui UI 插件,专门用于生成 AI 肖像画。这个项目不仅能让你训练一个与自己相关的数字分身,还能生成逼真的肖像图像。类似开源版的“妙鸭相机”
你可以通过上传 5 到 20 张肖像图片进行训练,最好是半身照片且不佩戴眼镜。训练完成后,用户可以在推理部分生成图像。下面是一些生成的效果:
项目支持使用预设模板图片与上传自己的图片进行推理,提供了极大的灵活性。
开源地址:https://github.com/aigc-apps/sd-webui-EasyPhoto
Easyphoto 支持的核心特性:
① 采样加速:支持基于 LCM-Lora 的采样加速,生成图像和视频的时间大大缩短。
② 属性编辑:支持基于 Concepts-Sliders 的属性编辑和虚拟试穿。
③ 高清大图生成:支持使用 SDXL 模型直接生成高清大图,不再需要上传模板。
④ 多人生成:支持多人生成,优化推理速度。
02
AudioNotes:音视频内容的智能整理助手
AudioNotes 能高效地从音视频资料中提取关键信息,并整理成易于阅读的笔记,基于 FunASR 和 Qwen2 构建的音视频转结构化笔记系统,能够快速提取音视频内容,并整理成一份结构化的 Markdown 笔记。
开源地址:https://github.com/harry0703/AudioNotes
1️⃣ 核心组件
FunASR:用于音频识别,将音频内容转换为文本。
FunASR GitHub:https://github.com/modelscope/FunASR
Qwen2:用于文本整理和生成结构化的 Markdown 笔记。
Qwen2 Ollama:https://ollama.com/library/qwen2
2️⃣ 核心特性
AudioNotes 不仅能够识别和整理音视频内容,还能与用户进行对话,展示其强大的交互能力:
音视频识别和整理:系统能够自动识别音视频中的语音,并将其整理成结构化的笔记。
与音视频内容对话:用户可以通过对话的方式与系统交互,获取音视频中的信息。
3️⃣ 使用方法
要使用 AudioNotes ,你需要按照以下步骤操作:
① 安装Ollama:下载并安装对应系统的Ollama安装包。
Ollama 开源地址:https://ollama.com/download
② 拉取模型:以 阿里的Qwen2 7b 为例,使用以下命令拉取模型:
ollama pull qwen2:7b
③ 部署服务:有两种部署方式,推荐使用Docker部署。
Docker部署:
curl -fsSL https://github.com/harry0703/AudioNotes/raw/main/docker-compose.yml -o docker-compose.yml
docker-compose up
启动后,访问 http://localhost:15433/
另外还有本地部署方式,可以直接访问该开源项目的主页查看指引。
AudioNotes 项目通过其创新的技术,极大地提升了音视频内容的处理效率,使其成为一个非常实用的工具。无论是学术研究、会议记录还是日常学习,都能从中受益。如果你对音视频内容的智能整理感兴趣,不妨试试这个项目。
点击下方头像 关注逛逛GitHub
文章评论