مبدل CPU/GPU برای تبدیل کتابهای الکترونیکی به کتابهای صوتی همراه با فصول و اطلاعات متاداده با استفاده از Calibre، ffmpeg، XTTSv2، Fairseq و دیگر ابزارها. پشتیبانی از کپیبرداری صدا از ۱۱۲۴ زبان!
Important
این ابزار فقط برای کتابهای الکترونیکی که غیر DRM هستند و به طور قانونی خریداری شده اند است.
سازندگان هیچ مسئولیتی در قبال استفاده نادرست ندارند.
از این ابزار به طور مسئولانه و مطابق با تمام قوانین مربوطه استفاده کنید.
از توسعهدهندگان ebook2audiobook حمایت کنید!
- ara العربية (Arabic)
- zho 中文 (Chinese)
- eng English
- swe Svenska (Swedish)
- far فارسی (persian)
- اصلی
- ویژگی ها
- رابط کاربری وب جدید نسخه 2.0
- Huggingface فصای نمونه
- رایگان Google Colab
- نمونههای صوتی ازپیش ایجاد شده
- زبان های پشتیبانی شده
- پیشنیاز ها
- دستورالعملهای نصب
- استفاده
- مدل های TTS به دقت تنظیم شده
- استفاده از Docker
- فرمتهای پشتیبانیشده کتاب الکترونیکی
- خروجی
- مشکلات رایج
- تشکرات ویژه
- ملحق شده به سرور دیسکورد !
- میراث
- واژهنامه بخش ها
- 📖 تبدیل کردن کتاب الکترونیک به متن با Calibre.
- 📚 تقسیم کردن کتاب الکترونیک به فصل ها برای صدای سازمان یافته .
- 🎙️ تبدیل گفتار به متن با کیفیت بالا همراه با Coqui XTTSv2 و Fairseq.
- 🗣️ همزاد سازی صدای اختیاری همراه با صدای خودتان.
- 🌍 پشتیبانی از 1124 زبان (English by default). List of Supported languages
- 🖥️ طراحی شده تا اجرابشود با 4GB RAM.
-
فضای Huggingface بر روی لایه پردازنده رایگان اجرا میشود، بنابراین انتظار داشته باشید که بسیار کند یا با تایماوت مواجه شوید، فقط کافی است که فایلهای خیلی بزرگ ارسال نکنید!
-
بهترین کار این است که فضای مورد نظر را تکثیر کنید یا به صورت محلی اجرا کنید..
- Arabic (ara)
- Chinese (zho)
- Czech (ces)
- Dutch (nld)
- English (eng)
- French (fra)
- German (deu)
- Hindi (hin)
- Hungarian (hun)
- Italian (ita)
- Japanese (jpn)
- Korean (kor)
- Polish (pol)
- Portuguese (por)
- Russian (rus)
- Spanish (spa)
- Turkish (tur)
- Vietnamese (vie)
- ** + 1124 languages via Fairseq**
- 4GB ram
- مجازیسازی فعال است اگر بر روی ویندوز اجرا شود (فقط Docker).
Important
قبل از ارسال مشکل نصب یا باگ، به دقت در تب مسائل باز و بسته شده جستجو کنید.
تا مطمئن شوید که این گزارش درحال حاضر وجود ندارد.
- همزاد سازی کردن مخزن
git clone https://github.com/DrewThomasson/ebook2audiobook.git
کد زبان خود را در هنگام اجرای برنامه مشخص کنید.
- اجرای ebook2audiobook:
- Linux/MacOS:
./ebook2audiobook.sh # Run Launch script
- Windows
.\ebook2audiobook.cmd # Run launch script or double click on it
- Linux/MacOS:
- برنامه وب را باز کنید: برای دسترسی به برنامه وب و تبدیل کتابهای الکترونیکی، روی آدرس URL ارائهشده در ترمینال کلیک کنید.
- برای لینک عمومی:
--share
را به انتهای آن اضافه کنید به این صورت:python app.py --share
- [برای پارامتر های بیشتر]:از پارامتر
--help
به این صورت استفاده کنید:python app.py --help
-
Linux/MacOS:
./ebook2audiobook.sh -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]
-
Windows
.\ebook2audiobook.cmd -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]
-
<path_to_ebook_file>: محل قرارگیری کتاب الکترونیک.
-
[path_to_voice_file]: همزاد سازی صدای خود(اختیاری).
-
[language_code]: اختیاری است که کد زبان سه حرفی ISO-639-3 را مشخص کنید (کد پیشفرض "eng" است). کد دو حرفی ISO-639-1 نیز پشتیبانی میشود.
-
[For More Parameters]:در صورت نیاز از
--help
استفاده کنید. مانندpython app.py --help
-
Linux/MacOS:
./ebook2audiobook.sh -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>
-
Windows
.\ebook2audiobook.cmd -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>
-
<ebook_file_path>: محل پرونده کتاب الکترونیک.
-
<target_voice_file_path>: همزاد سازی صدا (اختیاری).
-
: مشخص کردن زبان(اختیاری).
-
<custom_model_path>: مسیر فایل
model.pth
. -
<custom_config_path>: مسیر فایل
config.json
. -
<custom_vocab_path>: مسیر فایل
vocab.json
. -
[For More Parame]: use the
--help
parameter like thispython app.py --help
- Linux/MacOS:
./ebook2audiobook.sh --help
- Windows
.\ebook2audiobook.cmd --help
- این خروجیاش خواهد بود:
usage: app.py [-h] [--script_mode SCRIPT_MODE] [--share] [-- []]
[--session SESSION] [--ebook EBOOK] [--ebooks_dir [EBOOKS_DIR]]
[--voice VOICE] [--language LANGUAGE] [--device {cpu,gpu}]
[--custom_model CUSTOM_MODEL] [--temperature TEMPERATURE]
[--length_penalty LENGTH_PENALTY]
[--repetition_penalty REPETITION_PENALTY] [--top_k TOP_K] [--top_p TOP_P]
[--speed SPEED] [--enable_text_splitting] [--fine_tuned FINE_TUNED]
[--version]
Convert eBooks to Audiobooks using a Text-to-Speech model. You can either launch the Gradio interface or run the script in mode for direct conversion.
options:
-h, --help show this help message and exit
--script_mode SCRIPT_MODE
Force the script to run in NATIVE or DOCKER_UTILS
--share Enable a public shareable Gradio link. Default to False.
-- []
Run in mode. Default to True if the flag is present without a value, False otherwise.
--session SESSION Session to reconnect in case of interruption ( mode only)
--ebook EBOOK Path to the ebook file for conversion. Required in mode.
--ebooks_dir [EBOOKS_DIR]
Path to the directory containing ebooks for batch conversion. Default to "ebooks" if "default" is provided.
--voice VOICE Path to the target voice file for TTS. Optional, must be 24khz for XTTS and 16khz for fairseq models, uses a default voice if not provided.
--language LANGUAGE Language for the audiobook conversion. Options: eng, zho, spa, fra, por, rus, ind, hin, ben, yor, ara, jav, jpn, kor, deu, ita, fas, tam, tel, tur, pol, hun, nld, zzzz, abi, ace, aca, acn, acr, ach, acu, guq, ade, adj, agd, agx, agn, aha, aka, knj, ake, aeu, ahk, bss, alj, sqi, alt, alp, alz, kab, amk, mmg, amh, ami, azg, agg, boj, cko, any, arl, atq, luc, hyw, apr, aia, msy, cni, cjo, cpu, cpb, asm, asa, teo, ati, djk, ava, avn, avu, awb, kwi, awa, agr, agu, ayr, ayo, abp, blx, sgb, azj-script_cyrillic, azj-script_latin, azb, bba, bhz, bvc, bfy, bgq, bdq, bdh, bqi, bjw, blz, ban, bcc-script_latin, bcc-script_arabic, bam, ptu, bcw, bqj, bno, bbb, bfa, bjz, bak, eus, bsq, akb, btd, btx, bts, bbc, bvz, bjv, bep, bkv, bzj, bem, bng, bom, btt, bha, bgw, bht, beh, sne, ubl, bcl, bim, bkd, bjr, bfo, biv, bib, bis, bzi, bqp, bpr, bps, bwq, bdv, bqc, bus, bnp, bmq, bdg, boa, ksr, bor, bru, box, bzh, bgt, sab, bul, bwu, bmv, mya, tte, cjp, cbv, kaq, cot, cbc, car, cat, ceb, cme, cbi, ceg, cly, cya, che, hne, nya, dig, dug, bgr, cek, cfm, cnh, hlt, mwq, ctd, tcz, zyp, cco, cnl, cle, chz, cpa, cso, cnt, cuc, hak, nan, xnj, cap, cax, ctg, ctu, chf, cce, crt, crq, cac-dialect_sansebastiáncoatán, cac-dialect_sanmateoixtatán, ckt, ncu, cdj, chv, caa, asg, con, crn, cok, crk-script_latin, crk-script_syllabics, crh, hrv, cui, ces, dan, dsh, dbq, dga, dgi, dgk, dnj-dialect_gweetaawueast, dnj-dialect_blowowest, daa, dnt, dnw, dar, tcc, dwr, ded, mzw, ntr, ddn, des, dso, nfa, dhi, gud, did, mhu, dip, dik, tbz, dts, dos, dgo, mvp, jen, dzo, idd, eka, cto, emp, enx, sja, myv, mcq, ese, evn, eza, ewe, fal, fao, far, fij, fin, fon, frd, ful, flr, gau, gbk, gag-script_cyrillic, gag-script_latin, gbi, gmv, lug, pwg, gbm, cab, grt, krs, gso, nlg, gej, gri, kik, acd, glk, gof-script_latin, gog, gkn, wsg, gjn, gqr, gor, gux, gbo, ell, grc, guh, gub, grn, gyr, guo, gde, guj, gvl, guk, rub, dah, gwr, gwi, hat, hlb, amf, hag, hnn, bgc, had, hau, hwc, hvn, hay, xed, heb, heh, hil, hif, hns, hoc, hoy, hus-dialect_westernpotosino, hus-dialect_centralveracruz, huv, hui, hap, iba, isl, dbj, ifa, ifb, ifu, ifk, ife, ign, ikk, iqw, ilb, ilo, imo, inb, ipi, irk, icr, itv, itl, atg, ixl-dialect_sanjuancotzal, ixl-dialect_sangasparchajul, ixl-dialect_santamarianebaj, nca, izr, izz, jac, jam, jvn, kac, dyo, csk, adh, jun, jbu, dyu, bex, juy, gna, urb, kbp, cwa, dtp, kbr, cgc, kki, kzf, lew, cbr, kkj, keo, kqe, kak, kyb, knb, kmd, kml, ify, xal, kbq, kay, ktb, hig, gam, cbu, xnr, kmu, kne, kan, kby, pam, cak-dialect_santamaríadejesús, cak-dialect_southcentral, cak-dialect_yepocapa, cak-dialect_western, cak-dialect_santodomingoxenacoj, cak-dialect_central, xrb, krc, kaa, krl, pww, xsm, cbs, pss, kxf, kyz, kyu, txu, kaz, ndp, kbo, kyq, ken, ker, xte, kyg, kjh, kca, khm, kxm, kjg, nyf, kij, kia, kqr, kqp, krj, zga, kin, pkb, geb, gil, kje, kss, thk, klu, kyo, kog, kfb, kpv, bbo, xon, kma, kno, kxc, ozm, kqy, coe, kpq, kpy, kyf, kff-script_telugu, kri, rop, ktj, ted, krr, kdt, kez, cul, kle, kdi, kue, kum, kvn, cuk, kdn, xuo, key, kpz, knk, kmr-script_latin, kmr-script_arabic, kmr-script_cyrillic, xua, kru, kus, kub, kdc, kxv, blh, cwt, kwd, tnk, kwf, cwe, kyc, tye, kir, quc-dialect_north, quc-dialect_east, quc-dialect_central, lac, lsi, lbj, lhu, las, lam, lns, ljp, laj, lao, lat, lav, law, lcp, lzz, lln, lef, acf, lww, mhx, eip, lia, lif, onb, lis, loq, lob, yaz, lok, llg, ycl, lom, ngl, lon, lex, lgg, ruf, dop, lnd, ndy, lwo, lee, mev, mfz, jmc, myy, mbc, mda, mad, mag, ayz, mai, mca, mcp, mak, vmw, mgh, kde, mlg, zlm, pse, mkn, xmm, mal, xdy, div, mdy, mup, mam-dialect_central, mam-dialect_northern, mam-dialect_southern, mam-dialect_western, mqj, mcu, mzk, maw, mjl, mnk, mge, mbh, knf, mjv, mbt, obo, mbb, mzj, sjm, mrw, mar, mpg, mhr, enb, mah, myx, klv, mfh, met, mcb, mop, yua, mfy, maz, vmy, maq, mzi, maj, maa-dialect_sanantonio, maa-dialect_sanjerónimo, mhy, mhi, zmz, myb, gai, mqb, mbu, med, men, mee, mwv, meq, zim, mgo, mej, mpp, min, gum, mpx, mco, mxq, pxm, mto, mim, xta, mbz, mip, mib, miy, mih, miz, xtd, mxt, xtm, mxv, xtn, mie, mil, mio, mdv, mza, mit, mxb, mpm, soy, cmo-script_latin, cmo-script_khmer, mfq, old, mfk, mif, mkl, mox, myl, mqf, mnw, mon, mog, mfe, mor, mqn, mgd, mtj, cmr, mtd, bmr, moz, mzm, mnb, mnf, unr, fmu, mur, tih, muv, muy, sur, moa, wmw, tnr, miq, mos, muh, nas, mbj, nfr, kfw, nst, nag, nch, nhe, ngu, azz, nhx, ncl, nhy, ncj, nsu, npl, nuz, nhw, nhi, nlc, nab, gld, nnb, npy, pbb, ntm, nmz, naw, nxq, ndj, ndz, ndv, new, nij, sba, gng, nga, nnq, ngp, gym, kdj, nia, nim, nin, nko, nog, lem, not, nhu, nob, bud, nus, yas, nnw, nwb, nyy, nyn, rim, lid, nuj, nyo, nzi, ann, ory, ojb-script_latin, ojb-script_syllabics, oku, bsc, bdu, orm, ury, oss, ote, otq, stn, sig, kfx, bfz, sey, pao, pau, pce, plw, pmf, pag, pap, prf, pab, pbi, pbc, pad, ata, pez, peg, pcm, pis, pny, pir, pjt, poy, pps, pls, poi, poh-dialect_eastern, poh-dialect_western, prt, pui, pan, tsz, suv, lme, quy, qvc, quz, qve, qub, qvh, qwh, qvw, quf, qvm, qul, qvn, qxn, qxh, qvs, quh, qxo, qxr, qvo, qvz, qxl, quw, kjb, kek, rah, rjs, rai, lje, rnl, rkt, rap, yea, raw, rej, rel, ril, iri, rgu, rhg, rmc-script_latin, rmc-script_cyrillic, rmo, rmy-script_latin, rmy-script_cyrillic, ron, rol, cla, rng, rug, run, lsm, spy, sck, saj, sch, sml, xsb, sbl, saq, sbd, smo, rav, sxn, sag, sbp, xsu, srm, sas, apb, sgw, tvw, lip, slu, snw, sea, sza, seh, crs, ksb, shn, sho, mcd, cbt, xsr, shk, shp, sna, cjs, jiv, snp, sya, sid, snn, sri, srx, sil, sld, akp, xog, som, bmu, khq, ses, mnx, srn, sxb, suc, tgo, suk, sun, suz, sgj, sus, swh, swe, syl, dyi, myk, spp, tap, tby, tna, shi, klw, tgl, tbk, tgj, blt, tbg, omw, tgk, tdj, tbc, tlj, tly, ttq-script_tifinagh, taj, taq, tpm, tgp, tnn, tac, rif-script_latin, rif-script_arabic, tat, tav, twb, tbl, kps, twe, ttc, kdh, tes, tex, tee, tpp, tpt, stp, tfr, twu, ter, tew, tha, nod, thl, tem, adx, bod, khg, tca, tir, txq, tik, dgr, tob, tmf, tng, tlb, ood, tpi, jic, lbw, txa, tom, toh, tnt, sda, tcs, toc, tos, neb, trn, trs, trc, tri, cof, tkr, kdl, cas, tso, tuo, iou, tmc, tuf, tuk-script_latin, tuk-script_arabic, bov, tue, kcg, tzh-dialect_bachajón, tzh-dialect_tenejapa, tzo-dialect_chenalhó, tzo-dialect_chamula, tzj-dialect_western, tzj-dialect_eastern, aoz, udm, udu, ukr, ppk, ubu, urk, ura, urt, urd-script_devanagari, urd-script_arabic, urd-script_latin, upv, usp, uig-script_arabic, uig-script_cyrillic, uzb-script_cyrillic, vag, bav, vid, vie, vif, vun, vut, prk, wwa, rro, bao, waw, lgl, wlx, cou, hub, gvc, mfi, wap, wba, war, way, guc, cym, kvw, tnp, hto, huu, wal-script_latin, wal-script_ethiopic, wlo, noa, wob, kao, xer, yad, yka, sah, yba, yli, nlk, yal, yam, yat, jmd, tao, yaa, ame, guu, yao, yre, yva, ybb, pib, byr, pil, ycn, ess, yuz, atb, zne, zaq, zpo, zad, zpc, zca, zpg, zai, zpl, zam, zaw, zpm, zac, zao, ztq, zar, zpt, zpi, zas, zaa, zpz, zab, zpu, zae, zty, zav, zza, zyb, ziw, zos, gnd. Default to English (eng).
--device {cpu,gpu} Type of processor unit for the audiobook conversion. If not specified: check first if gpu available, if not cpu is selected.
--custom_model CUSTOM_MODEL
Path to the custom model (.zip file containing ['config.json', 'vocab.json', 'model.pth', 'ref.wav']). Required if using a custom model.
--temperature TEMPERATURE
Temperature for the model. Default to 0.65. Higher temperatures lead to more creative outputs.
--length_penalty LENGTH_PENALTY
A length penalty applied to the autoregressive decoder. Default to 1.0. Not applied to custom models.
--repetition_penalty REPETITION_PENALTY
A penalty that prevents the autoregressive decoder from repeating itself. Default to 2.5
--top_k TOP_K Top-k sampling. Lower values mean more likely outputs and increased audio generation speed. Default to 50
--top_p TOP_P Top-p sampling. Lower values mean more likely outputs and increased audio generation speed. Default to 0.8
--speed SPEED Speed factor for the speech generation. Default to 1.0
--enable_text_splitting
Enable splitting text into sentences. Default to False.
--fine_tuned FINE_TUNED
Name of the fine tuned model. Optional, uses the standard model according to the TTS engine and language.
--version Show the version of the script and exit
Example usage:
Windows:
:
ebook2audiobook.cmd -- --ebook 'path_to_ebook'
Graphic Interface:
ebook2audiobook.cmd
Linux/Mac:
:
./ebook2audiobook.sh -- --ebook 'path_to_ebook'
Graphic Interface:
./ebook2audiobook.sh
همچنین شما میتوانید از Docker برای اجرای ebook2audiobook استفاده کنید. این روش تضمین میکند که در محیطهای مختلف ثبات وجود داشته باشد و راهاندازی را سادهتر میکند.
برای اجرای کانتینر Docker و راهاندازی رابط Gradio، از دستور زیر استفاده کنید:
-اجرا فقط با استفاده از CPU
docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
-اجرا با استفاده از GPU (فقط کارت گرافیک های Nvidia)
docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
- شما میتوناید با استفاده از دستور زیر یک نگه دارنده docker بسازید: '''powershell docker build --platform linux/amd64 -t athomasson2/ebook2audiobook . '''
این دستور رابط کاربری Gradio را در پورت 7860 اجرا میکند. (localhost:7860)
- برای گزینههای بیشتر مانند اجرای Docker در حالت یا عمومی کردن لینک Gradio، پارامتر
--help
را بعد ازapp.py
در دستور راهاندازی Docker اضافه کنید.
تمام فایل های ebook2audio در سرپوشه /home/user/app/
قرار دارند.
برای مثال :
tmp
= /home/user/app/tmp
audiobooks
= /home/user/app/audiobooks
اول برای دریافت docker pull را وارد کنید.
docker pull athomasson2/ebook2audiobook
- قبل از اینکه این را اجرا کنید، باید یک پوشه به نام "input-folder" در دایرکتوری فعلی خود ایجاد کنید که به آن لینک خواهد شد. اینجا جایی است که میتوانید فایلهای ورودی خود را برای مشاهده توسط تصویر Docker قرار دهید.
mkdir input-folder && mkdir Audiobooks
- در دستور زیر YOUR_INPUT_FILE.TXT را با نام فایل ورودی خود جایگزین کنید.
docker run -it --rm \
-v $(pwd)/input-folder:/home/user/app/input_folder \
-v $(pwd)/audiobooks:/home/user/app/audiobooks \
--platform linux/amd64 \
athomasson2/ebook2audiobook \
python app.py --headless --ebook /input_folder/YOUR_INPUT_FILE.TXT
-و این باید تمامش باشد!
- خروجی کتابهای صوتی در پوشه Audiobook پیدا خواهد شد که همچنین در دایرکتوری محلی که این دستور Docker را در آن اجرا کردید، قرار دارد.
docker run -it --rm \
--platform linux/amd64 \
athomasson2/ebook2audiobook \
python app.py --help
و این خروجی زیر را تولید خواهد کرد. Help command output
این پروژه از Docker Compose برای اجرای محلی استفاده میکند. میتوانید با تنظیم *gpu-enabled
یا *gpu-disabled
در docker-compose.yml
از پشتیبانی GPU استفاده کنید یا آن را غیرفعال کنید.
-
Clone the Repository (if you haven't already):
git clone https://github.com/DrewThomasson/ebook2audiobook.git cd ebook2audiobook
-
Set GPU Support (disabled by default) برای فعالسازی پشتیبانی GPU، فایل
docker-compose.yml
را ویرایش کرده و*gpu-disabled
را به*gpu-enabled
تغییر دهید. -
Start the service:
docker-compose up -d
-
Access the service: این سرویس در آدرس http://localhost:7860 در دسترس خواهد بود.
آیا سختافزار لازم برای اجرای آن را ندارید یا میخواهید یک GPU اجاره کنید؟
(به یاد داشته باشید که اگر با Google Colab کاری نکنید، بعد از مدتی زمان آن به پایان میرسد.) Free Google Colab
- Docker در حین دانلود مدلهای Fine-Tuned گیر میکند. (این مشکل برای هر کامپیوتری پیش نمیآید، اما برخی به این مشکل برخورد میکنند)
غیرفعال کردن نوار پیشرفت به نظر میرسد که این مشکل را حل میکند، همانطور که در اینجا در #191 بحث شده است.
مثالی از افزودن این اصلاح در دستورdocker run
docker run -it --rm --gpus all -e HF_HUB_DISABLE_PROGRESS_BARS=1 -e HF_HUB_ENABLE_HF_TRANSFER=0 -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py
شما میتوانید به راحتی مدل xtts خود را با این مخزن (repo) تنظیم دقیق کنید. xtts-finetune-webui
اگر میخواهید به راحتی یک GPU اجاره کنید، میتوانید این Hugging Face را نیز کپی کنید. xtts-finetune-webui-space فضایی که میتوانید برای کاهش نویز دادههای آموزشی به راحتی استفاده کنید نیز وجود دارد. denoise-huggingface-space
برای پیدا کردن مجموعهای از مدلهای TTS که قبلاً تنظیم دقیق شدهاند، به این لینک Hugging Face مراجعه کنید.
برای یک مدل XTTS سفارشی، همچنین به یک کلیپ صوتی مرجع از صدا نیاز خواهد بود:
Rainy day صدای
Magic.Tree.House.45.Osborne.Mary.Pope.-.A.Crazy.Day.With.Cobras.mp4
David Attenborough صدای
david_atten_alice_text.mp4
.epub
,.pdf
,.mobi
,.txt
,.html
,.rtf
,.chm
,.lit
,.pdb
,.fb2
,.odt
,.cbr
,.cbz
,.prc
,.lrf
,.pml
,.snb
,.cbc
,.rb
,.tcr
- بهترین نتایج:
.epub
یا.mobi
برای تشخیص خودکار فصلها
-"این کند است!" - فقط در CPU این بسیار کند است و تنها میتوانید با یک GPU NVIDIA سرعت را افزایش دهید. بحث در مورد این موضوع برای تولید چندزبانه سریعتر، من پروژه دیگری که از piper-tts استفاده میکند را پیشنهاد میکنم این پروژه به جای آن. (این پروژه قابلیت کلونینگ صدای بدون نمونه را ندارد، و صداها کیفیت سیری دارند، اما در CPU بسیار سریعتر است.)
-"من با مشکلات وابستگی مواجه هستم" - فقط از Docker استفاده کنید، این کاملاً مستقل است و حالت بدون سر دارد. پارامتر -h
را بعد از app.py
در دستور اجرای Docker اضافه کنید برای اطلاعات بیشتر.
- "من با مشکل صدای بریده شده مواجه هستم!" - لطفاً یک مشکل (Issue) در این مورد ایجاد کنید، من به هر زبانی صحبت نمیکنم و به مشاوره از هر شخص نیاز دارم تا تابع تقسیم جملات خود را در زبانهای دیگر تنظیم دقیق کنم. 😊
- هر کمکی از افرادی که به یکی از زبانهای پشتیبانی شده صحبت میکنند برای کمک به روشهای صحیح تقسیم جملات مورد نیاز است.
- امکان ایجاد راهنماهای README برای چندین زبان وجود دارد.
-
Coqui TTS: Coqui TTS GitHub
-
Calibre: Calibre Website
-
FFmpeg: FFmpeg Website
شما میتوانید کد را اینجا مشاهده کنید.