我的频道
淫叔馆TG频道 https://t.me/yinshuguan
使用Hitomi-Downloader 手动采集E站每天更新的画廊
黑白同人志3万3千多页 其余全部是画师CG全彩图片 我主要看全彩CG着重训练的也是全彩CG图
以及少量 survivemore生存社PPT视频 文字区域切片 为了可以兼容硬字幕提取
少量动漫双语字幕图片文字区域切片 为了硬字幕提取 横向文字图片数据
少量dlsite 上的 ASMR音声商品宣传介绍图图片 为了数据的多样性
排除各种现有OCR技术无法识别的拟声词 (我都看机翻了我还在乎你拟声词吗?)
视频演示
bandicam.2025-04-17.14-43-31-235.mp4
BallonsTranslator 原来的CTD
bandicam.2025-04-17.14-22-20-564.mp4
BallonsTranslator 现在的我训练的YSGyolo
bandicam.2025-04-17.14-26-34-787.mp4
ImageTrans 原来自然场景检测
bandicam.2025-04-17.14-28-46-536.mp4
ImageTrans 现在我训练的yolo
bandicam.2025-04-17.14-29-19-059.mp4
看着不那么闹心了 现在就算是跑上千页的 手动修正也不会那么累了
有的精度高的时候根本就不需要手动修正
一个人没日没夜精确标注9个月
5个标签 balloon qipao fangkuai changfangtiao kuangwai
总计22万2千3百80张图片 97.3G数据集 有零有整的 标吐了 实在是不想再标了
在A100 64G显卡上进行训练
专门为 ImageTrans 训练的 图片文字检测模型
另外 本模型也已实装在
另外2款开源漫画软件上
https://github.com/dmMaze/BallonsTranslator
https://github.com/ogkalu2/comic-translate
感谢大佬支持并实装
图片翻译器 https://github.com/xulihang/ImageTrans-docs
数据标注工具 https://github.com/CVHub520/X-AnyLabeling
本子下载器 https://github.com/KurtBestor/Hitomi-Downloader
低画质图片数据来源 https://hitomi.la/
ultralytics (YOLOV11) https://github.com/ultralytics/ultralytics
Quick input 使得鼠标可以像素级精确移动 https://github.com/ChiyukiGana/Quickinput
obs-studio https://github.com/obsproject/obs-studio
X-AnyLabeling不能显示当前页面标签数量
用OBS采集显示器实现一个伪标签数量显示功能
好能直观的知道当前页面上有多少个标签
LiveSplit 一个游戏速通计时器 用于记录每一本标注的时间和每天花费在标注上的总时间 https://livesplit.org