📚 ebook2audiobook

مبدل CPU/GPU برای تبدیل کتاب‌های الکترونیکی به کتاب‌های صوتی همراه با فصول و اطلاعات متاداده با استفاده از Calibre، ffmpeg، XTTSv2، Fairseq و دیگر ابزارها. پشتیبانی از کپی‌برداری صدا از ۱۱۲۴ زبان!

Important

این ابزار فقط برای کتاب‌های الکترونیکی که غیر DRM هستند و به طور قانونی خریداری شده اند است.
سازندگان هیچ مسئولیتی در قبال استفاده نادرست ندارند.
از این ابزار به طور مسئولانه و مطابق با تمام قوانین مربوطه استفاده کنید.

از توسعه‌دهندگان ebook2audiobook حمایت کنید!

رابط کاربری وب جدید نسخه 2.0!

برای دیدن رابط کاربری جدید کلیک کنید

README.md

ara العربية (Arabic)
zho 中文 (Chinese)
eng English
swe Svenska (Swedish)
far فارسی (persian)

اصلی
ویژگی ها
رابط کاربری وب جدید نسخه 2.0
Huggingface فصای نمونه
رایگان Google Colab
نمونه‌های صوتی ازپیش ایجاد شده
زبان های پشتیبانی شده
پیشنیاز ها
دستور‌العمل‌های نصب
استفاده
مدل های TTS به دقت تنظیم شده
- برای مجموعه مدل‌های TTS به دقت تنظیم شده
استفاده از Docker
فرمت‌های پشتیبانی‌شده کتاب الکترونیکی
خروجی
مشکلات رایج
تشکرات ویژه
ملحق شده به سرور دیسکورد !
میراث
واژه‌نامه بخش ها

Features

📖 تبدیل کردن کتاب الکترونیک به متن با Calibre.
📚 تقسیم کردن کتاب الکترونیک به فصل ها برای صدای سازمان یافته .
🎙️ تبدیل گفتار به متن با کیفیت بالا همراه با Coqui XTTSv2 و Fairseq.
🗣️ همزاد سازی صدای اختیاری همراه با صدای خودتان.
🌍 پشتیبانی از 1124 زبان (English by default). List of Supported languages
🖥️ طراحی شده تا اجرابشود با 4GB RAM.

Huggingface space demo

فضای Huggingface بر روی لایه پردازنده رایگان اجرا می‌شود، بنابراین انتظار داشته باشید که بسیار کند یا با تایم‌اوت مواجه شوید، فقط کافی است که فایل‌های خیلی بزرگ ارسال نکنید!
بهترین کار این است که فضای مورد نظر را تکثیر کنید یا به صورت محلی اجرا کنید..

Free Google Colab

Supported Languages

Arabic (ara)
Chinese (zho)
Czech (ces)
Dutch (nld)
English (eng)
French (fra)
German (deu)
Hindi (hin)
Hungarian (hun)
Italian (ita)
Japanese (jpn)
Korean (kor)
Polish (pol)
Portuguese (por)
Russian (rus)
Spanish (spa)
Turkish (tur)
Vietnamese (vie)
** + 1124 languages via Fairseq**

Requirements

4GB ram
مجازی‌سازی فعال است اگر بر روی ویندوز اجرا شود (فقط Docker).

Important

قبل از ارسال مشکل نصب یا باگ، به دقت در تب مسائل باز و بسته شده جستجو کنید.
تا مطمئن شوید که این گزارش درحال حاضر وجود ندارد.

Installation Instructions

همزاد سازی کردن مخزن

git clone https://github.com/DrewThomasson/ebook2audiobook.git

کد زبان خود را در هنگام اجرای برنامه مشخص کنید.

Launching Gradio Web Interface

اجرای ebook2audiobook:

Linux/MacOS:

./ebook2audiobook.sh  # Run Launch script

Windows

.\ebook2audiobook.cmd  # Run launch script or double click on it

برنامه وب را باز کنید: برای دسترسی به برنامه وب و تبدیل کتاب‌های الکترونیکی، روی آدرس URL ارائه‌شده در ترمینال کلیک کنید.
برای لینک عمومی: --share را به انتهای آن اضافه کنید به این صورت: python app.py --share

[برای پارامتر های بیشتر]:از پارامتر --help به این صورت استفاده کنید: python app.py --help

Basic Usage

Linux/MacOS:

./ebook2audiobook.sh  -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]

Windows

.\ebook2audiobook.cmd  -- --ebook <path_to_ebook_file> --voice [path_to_voice_file] --language [language_code]

<path_to_ebook_file>: محل قرارگیری کتاب الکترونیک.
[path_to_voice_file]: همزاد سازی صدای خود‌(اختیاری).
[language_code]: اختیاری است که کد زبان سه حرفی ISO-639-3 را مشخص کنید (کد پیش‌فرض "eng" است). کد دو حرفی ISO-639-1 نیز پشتیبانی می‌شود.
[For More Parameters]:در صورت نیاز از --help استفاده کنید. مانند python app.py --help

Custom XTTS Model Usage

Linux/MacOS:

./ebook2audiobook.sh  -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>

Windows

.\ebook2audiobook.cmd  -- --ebook <ebook_file_path> --voice <target_voice_file_path> --language <language> --custom_model <custom_model_path> --custom_config <custom_config_path> --custom_vocab <custom_vocab_path>

<ebook_file_path>: محل پرونده کتاب الکترونیک.
<target_voice_file_path>: همزاد سازی صدا (اختیاری).
: مشخص کردن زبان‌(اختیاری).
<custom_model_path>: مسیر فایلmodel.pth.
<custom_config_path>: مسیر فایل config.json.
<custom_vocab_path>: مسیر فایل vocab.json.
[For More Parame]: use the --help parameter like this python app.py --help

For Detailed Guide with list of all Parameters to use

Linux/MacOS:
```
./ebook2audiobook.sh  --help
```
Windows
```
.\ebook2audiobook.cmd  --help
```

این خروجی‌اش خواهد بود:

usage: app.py [-h] [--script_mode SCRIPT_MODE] [--share] [-- []]
              [--session SESSION] [--ebook EBOOK] [--ebooks_dir [EBOOKS_DIR]]
              [--voice VOICE] [--language LANGUAGE] [--device {cpu,gpu}]
              [--custom_model CUSTOM_MODEL] [--temperature TEMPERATURE]
              [--length_penalty LENGTH_PENALTY]
              [--repetition_penalty REPETITION_PENALTY] [--top_k TOP_K] [--top_p TOP_P]
              [--speed SPEED] [--enable_text_splitting] [--fine_tuned FINE_TUNED]
              [--version]

Convert eBooks to Audiobooks using a Text-to-Speech model. You can either launch the Gradio interface or run the script in  mode for direct conversion.

options:
  -h, --help            show this help message and exit
  --script_mode SCRIPT_MODE
                        Force the script to run in NATIVE or DOCKER_UTILS
  --share               Enable a public shareable Gradio link. Default to False.
  -- []
                        Run in  mode. Default to True if the flag is present without a value, False otherwise.
  --session SESSION     Session to reconnect in case of interruption ( mode only)
  --ebook EBOOK         Path to the ebook file for conversion. Required in  mode.
  --ebooks_dir [EBOOKS_DIR]
                        Path to the directory containing ebooks for batch conversion. Default to "ebooks" if "default" is provided.
  --voice VOICE         Path to the target voice file for TTS. Optional, must be 24khz for XTTS and 16khz for fairseq models, uses a default voice if not provided.
  --language LANGUAGE   Language for the audiobook conversion. Options: eng, zho, spa, fra, por, rus, ind, hin, ben, yor, ara, jav, jpn, kor, deu, ita, fas, tam, tel, tur, pol, hun, nld, zzzz, abi, ace, aca, acn, acr, ach, acu, guq, ade, adj, agd, agx, agn, aha, aka, knj, ake, aeu, ahk, bss, alj, sqi, alt, alp, alz, kab, amk, mmg, amh, ami, azg, agg, boj, cko, any, arl, atq, luc, hyw, apr, aia, msy, cni, cjo, cpu, cpb, asm, asa, teo, ati, djk, ava, avn, avu, awb, kwi, awa, agr, agu, ayr, ayo, abp, blx, sgb, azj-script_cyrillic, azj-script_latin, azb, bba, bhz, bvc, bfy, bgq, bdq, bdh, bqi, bjw, blz, ban, bcc-script_latin, bcc-script_arabic, bam, ptu, bcw, bqj, bno, bbb, bfa, bjz, bak, eus, bsq, akb, btd, btx, bts, bbc, bvz, bjv, bep, bkv, bzj, bem, bng, bom, btt, bha, bgw, bht, beh, sne, ubl, bcl, bim, bkd, bjr, bfo, biv, bib, bis, bzi, bqp, bpr, bps, bwq, bdv, bqc, bus, bnp, bmq, bdg, boa, ksr, bor, bru, box, bzh, bgt, sab, bul, bwu, bmv, mya, tte, cjp, cbv, kaq, cot, cbc, car, cat, ceb, cme, cbi, ceg, cly, cya, che, hne, nya, dig, dug, bgr, cek, cfm, cnh, hlt, mwq, ctd, tcz, zyp, cco, cnl, cle, chz, cpa, cso, cnt, cuc, hak, nan, xnj, cap, cax, ctg, ctu, chf, cce, crt, crq, cac-dialect_sansebastiáncoatán, cac-dialect_sanmateoixtatán, ckt, ncu, cdj, chv, caa, asg, con, crn, cok, crk-script_latin, crk-script_syllabics, crh, hrv, cui, ces, dan, dsh, dbq, dga, dgi, dgk, dnj-dialect_gweetaawueast, dnj-dialect_blowowest, daa, dnt, dnw, dar, tcc, dwr, ded, mzw, ntr, ddn, des, dso, nfa, dhi, gud, did, mhu, dip, dik, tbz, dts, dos, dgo, mvp, jen, dzo, idd, eka, cto, emp, enx, sja, myv, mcq, ese, evn, eza, ewe, fal, fao, far, fij, fin, fon, frd, ful, flr, gau, gbk, gag-script_cyrillic, gag-script_latin, gbi, gmv, lug, pwg, gbm, cab, grt, krs, gso, nlg, gej, gri, kik, acd, glk, gof-script_latin, gog, gkn, wsg, gjn, gqr, gor, gux, gbo, ell, grc, guh, gub, grn, gyr, guo, gde, guj, gvl, guk, rub, dah, gwr, gwi, hat, hlb, amf, hag, hnn, bgc, had, hau, hwc, hvn, hay, xed, heb, heh, hil, hif, hns, hoc, hoy, hus-dialect_westernpotosino, hus-dialect_centralveracruz, huv, hui, hap, iba, isl, dbj, ifa, ifb, ifu, ifk, ife, ign, ikk, iqw, ilb, ilo, imo, inb, ipi, irk, icr, itv, itl, atg, ixl-dialect_sanjuancotzal, ixl-dialect_sangasparchajul, ixl-dialect_santamarianebaj, nca, izr, izz, jac, jam, jvn, kac, dyo, csk, adh, jun, jbu, dyu, bex, juy, gna, urb, kbp, cwa, dtp, kbr, cgc, kki, kzf, lew, cbr, kkj, keo, kqe, kak, kyb, knb, kmd, kml, ify, xal, kbq, kay, ktb, hig, gam, cbu, xnr, kmu, kne, kan, kby, pam, cak-dialect_santamaríadejesús, cak-dialect_southcentral, cak-dialect_yepocapa, cak-dialect_western, cak-dialect_santodomingoxenacoj, cak-dialect_central, xrb, krc, kaa, krl, pww, xsm, cbs, pss, kxf, kyz, kyu, txu, kaz, ndp, kbo, kyq, ken, ker, xte, kyg, kjh, kca, khm, kxm, kjg, nyf, kij, kia, kqr, kqp, krj, zga, kin, pkb, geb, gil, kje, kss, thk, klu, kyo, kog, kfb, kpv, bbo, xon, kma, kno, kxc, ozm, kqy, coe, kpq, kpy, kyf, kff-script_telugu, kri, rop, ktj, ted, krr, kdt, kez, cul, kle, kdi, kue, kum, kvn, cuk, kdn, xuo, key, kpz, knk, kmr-script_latin, kmr-script_arabic, kmr-script_cyrillic, xua, kru, kus, kub, kdc, kxv, blh, cwt, kwd, tnk, kwf, cwe, kyc, tye, kir, quc-dialect_north, quc-dialect_east, quc-dialect_central, lac, lsi, lbj, lhu, las, lam, lns, ljp, laj, lao, lat, lav, law, lcp, lzz, lln, lef, acf, lww, mhx, eip, lia, lif, onb, lis, loq, lob, yaz, lok, llg, ycl, lom, ngl, lon, lex, lgg, ruf, dop, lnd, ndy, lwo, lee, mev, mfz, jmc, myy, mbc, mda, mad, mag, ayz, mai, mca, mcp, mak, vmw, mgh, kde, mlg, zlm, pse, mkn, xmm, mal, xdy, div, mdy, mup, mam-dialect_central, mam-dialect_northern, mam-dialect_southern, mam-dialect_western, mqj, mcu, mzk, maw, mjl, mnk, mge, mbh, knf, mjv, mbt, obo, mbb, mzj, sjm, mrw, mar, mpg, mhr, enb, mah, myx, klv, mfh, met, mcb, mop, yua, mfy, maz, vmy, maq, mzi, maj, maa-dialect_sanantonio, maa-dialect_sanjerónimo, mhy, mhi, zmz, myb, gai, mqb, mbu, med, men, mee, mwv, meq, zim, mgo, mej, mpp, min, gum, mpx, mco, mxq, pxm, mto, mim, xta, mbz, mip, mib, miy, mih, miz, xtd, mxt, xtm, mxv, xtn, mie, mil, mio, mdv, mza, mit, mxb, mpm, soy, cmo-script_latin, cmo-script_khmer, mfq, old, mfk, mif, mkl, mox, myl, mqf, mnw, mon, mog, mfe, mor, mqn, mgd, mtj, cmr, mtd, bmr, moz, mzm, mnb, mnf, unr, fmu, mur, tih, muv, muy, sur, moa, wmw, tnr, miq, mos, muh, nas, mbj, nfr, kfw, nst, nag, nch, nhe, ngu, azz, nhx, ncl, nhy, ncj, nsu, npl, nuz, nhw, nhi, nlc, nab, gld, nnb, npy, pbb, ntm, nmz, naw, nxq, ndj, ndz, ndv, new, nij, sba, gng, nga, nnq, ngp, gym, kdj, nia, nim, nin, nko, nog, lem, not, nhu, nob, bud, nus, yas, nnw, nwb, nyy, nyn, rim, lid, nuj, nyo, nzi, ann, ory, ojb-script_latin, ojb-script_syllabics, oku, bsc, bdu, orm, ury, oss, ote, otq, stn, sig, kfx, bfz, sey, pao, pau, pce, plw, pmf, pag, pap, prf, pab, pbi, pbc, pad, ata, pez, peg, pcm, pis, pny, pir, pjt, poy, pps, pls, poi, poh-dialect_eastern, poh-dialect_western, prt, pui, pan, tsz, suv, lme, quy, qvc, quz, qve, qub, qvh, qwh, qvw, quf, qvm, qul, qvn, qxn, qxh, qvs, quh, qxo, qxr, qvo, qvz, qxl, quw, kjb, kek, rah, rjs, rai, lje, rnl, rkt, rap, yea, raw, rej, rel, ril, iri, rgu, rhg, rmc-script_latin, rmc-script_cyrillic, rmo, rmy-script_latin, rmy-script_cyrillic, ron, rol, cla, rng, rug, run, lsm, spy, sck, saj, sch, sml, xsb, sbl, saq, sbd, smo, rav, sxn, sag, sbp, xsu, srm, sas, apb, sgw, tvw, lip, slu, snw, sea, sza, seh, crs, ksb, shn, sho, mcd, cbt, xsr, shk, shp, sna, cjs, jiv, snp, sya, sid, snn, sri, srx, sil, sld, akp, xog, som, bmu, khq, ses, mnx, srn, sxb, suc, tgo, suk, sun, suz, sgj, sus, swh, swe, syl, dyi, myk, spp, tap, tby, tna, shi, klw, tgl, tbk, tgj, blt, tbg, omw, tgk, tdj, tbc, tlj, tly, ttq-script_tifinagh, taj, taq, tpm, tgp, tnn, tac, rif-script_latin, rif-script_arabic, tat, tav, twb, tbl, kps, twe, ttc, kdh, tes, tex, tee, tpp, tpt, stp, tfr, twu, ter, tew, tha, nod, thl, tem, adx, bod, khg, tca, tir, txq, tik, dgr, tob, tmf, tng, tlb, ood, tpi, jic, lbw, txa, tom, toh, tnt, sda, tcs, toc, tos, neb, trn, trs, trc, tri, cof, tkr, kdl, cas, tso, tuo, iou, tmc, tuf, tuk-script_latin, tuk-script_arabic, bov, tue, kcg, tzh-dialect_bachajón, tzh-dialect_tenejapa, tzo-dialect_chenalhó, tzo-dialect_chamula, tzj-dialect_western, tzj-dialect_eastern, aoz, udm, udu, ukr, ppk, ubu, urk, ura, urt, urd-script_devanagari, urd-script_arabic, urd-script_latin, upv, usp, uig-script_arabic, uig-script_cyrillic, uzb-script_cyrillic, vag, bav, vid, vie, vif, vun, vut, prk, wwa, rro, bao, waw, lgl, wlx, cou, hub, gvc, mfi, wap, wba, war, way, guc, cym, kvw, tnp, hto, huu, wal-script_latin, wal-script_ethiopic, wlo, noa, wob, kao, xer, yad, yka, sah, yba, yli, nlk, yal, yam, yat, jmd, tao, yaa, ame, guu, yao, yre, yva, ybb, pib, byr, pil, ycn, ess, yuz, atb, zne, zaq, zpo, zad, zpc, zca, zpg, zai, zpl, zam, zaw, zpm, zac, zao, ztq, zar, zpt, zpi, zas, zaa, zpz, zab, zpu, zae, zty, zav, zza, zyb, ziw, zos, gnd. Default to English (eng).
  --device {cpu,gpu}    Type of processor unit for the audiobook conversion. If not specified: check first if gpu available, if not cpu is selected.
  --custom_model CUSTOM_MODEL
                        Path to the custom model (.zip file containing ['config.json', 'vocab.json', 'model.pth', 'ref.wav']). Required if using a custom model.
  --temperature TEMPERATURE
                        Temperature for the model. Default to 0.65. Higher temperatures lead to more creative outputs.
  --length_penalty LENGTH_PENALTY
                        A length penalty applied to the autoregressive decoder. Default to 1.0. Not applied to custom models.
  --repetition_penalty REPETITION_PENALTY
                        A penalty that prevents the autoregressive decoder from repeating itself. Default to 2.5
  --top_k TOP_K         Top-k sampling. Lower values mean more likely outputs and increased audio generation speed. Default to 50
  --top_p TOP_P         Top-p sampling. Lower values mean more likely outputs and increased audio generation speed. Default to 0.8
  --speed SPEED         Speed factor for the speech generation. Default to 1.0
  --enable_text_splitting
                        Enable splitting text into sentences. Default to False.
  --fine_tuned FINE_TUNED
                        Name of the fine tuned model. Optional, uses the standard model according to the TTS engine and language.
  --version             Show the version of the script and exit

Example usage:    
Windows:
    :
    ebook2audiobook.cmd -- --ebook 'path_to_ebook'
    Graphic Interface:
    ebook2audiobook.cmd
Linux/Mac:
    :
    ./ebook2audiobook.sh -- --ebook 'path_to_ebook'
    Graphic Interface:
    ./ebook2audiobook.sh

Using Docker

همچنین شما میتوانید از Docker برای اجرای ebook2audiobook استفاده کنید. این روش تضمین می‌کند که در محیط‌های مختلف ثبات وجود داشته باشد و راه‌اندازی را ساده‌تر می‌کند.

Running the Docker Container

برای اجرای کانتینر Docker و راه‌اندازی رابط Gradio، از دستور زیر استفاده کنید:

-اجرا فقط با استفاده از CPU

docker run -it --rm -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

-اجرا با استفاده از GPU (فقط کارت گرافیک های Nvidia)

docker run -it --rm --gpus all -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

Building the Docker Container

شما میتوناید با استفاده از دستور زیر یک نگه دارنده docker بسازید: '''powershell docker build --platform linux/amd64 -t athomasson2/ebook2audiobook . '''

این دستور رابط کاربری Gradio را در پورت 7860 اجرا می‌کند. (localhost:7860)

برای گزینه‌های بیشتر مانند اجرای Docker در حالت یا عمومی کردن لینک Gradio، پارامتر --help را بعد از app.py در دستور راه‌اندازی Docker اضافه کنید.

Docker container file locations

تمام فایل های ebook2audio در سر‌پوشه /home/user/app/ قرار دارند. برای مثال : tmp = /home/user/app/tmp audiobooks = /home/user/app/audiobooks

Docker headless guide

اول برای دریافت docker pull را وارد کنید.

docker pull athomasson2/ebook2audiobook

قبل از اینکه این را اجرا کنید، باید یک پوشه به نام "input-folder" در دایرکتوری فعلی خود ایجاد کنید که به آن لینک خواهد شد. اینجا جایی است که می‌توانید فایل‌های ورودی خود را برای مشاهده توسط تصویر Docker قرار دهید.

mkdir input-folder && mkdir Audiobooks

در دستور زیر YOUR_INPUT_FILE.TXT را با نام فایل ورودی خود جایگزین کنید.

docker run -it --rm \
    -v $(pwd)/input-folder:/home/user/app/input_folder \
    -v $(pwd)/audiobooks:/home/user/app/audiobooks \
    --platform linux/amd64 \
    athomasson2/ebook2audiobook \
    python app.py --headless --ebook /input_folder/YOUR_INPUT_FILE.TXT

-و این باید تمامش باشد!

خروجی کتاب‌های صوتی در پوشه Audiobook پیدا خواهد شد که همچنین در دایرکتوری محلی که این دستور Docker را در آن اجرا کردید، قرار دارد.

برای دریافت دستور کمک برای سایر پارامترهایی که این برنامه دارد، می‌توانید این را اجرا کنید.

docker run -it --rm \
    --platform linux/amd64 \
    athomasson2/ebook2audiobook \
    python app.py --help

و این خروجی زیر را تولید خواهد کرد. Help command output

Docker Compose

این پروژه از Docker Compose برای اجرای محلی استفاده می‌کند. می‌توانید با تنظیم *gpu-enabled یا *gpu-disabled در docker-compose.yml از پشتیبانی GPU استفاده کنید یا آن را غیرفعال کنید.

Steps to Run

Clone the Repository (if you haven't already):

git clone https://github.com/DrewThomasson/ebook2audiobook.git
cd ebook2audiobook

Set GPU Support (disabled by default) برای فعال‌سازی پشتیبانی GPU، فایل docker-compose.yml را ویرایش کرده و *gpu-disabled را به *gpu-enabled تغییر دهید.
Start the service:
```
docker-compose up -d
```
Access the service: این سرویس در آدرس http://localhost:7860 در دسترس خواهد بود.

New v2.0 Docker Web GUI Interface!

برای مشاهده تصاویر رابط کاربری وب کلیک کنید.

Renting a GPU

آیا سخت‌افزار لازم برای اجرای آن را ندارید یا می‌خواهید یک GPU اجاره کنید؟

شما می‌توانید فضای Hugging Face را کپی کنید و یک GPU را به قیمت حدود ۰.۴۰ دلار در ساعت اجاره کنید.

Huggingface Space Demo

یا می‌توانید از Google Colab به صورت رایگان استفاده کنید!

(به یاد داشته باشید که اگر با Google Colab کاری نکنید، بعد از مدتی زمان آن به پایان می‌رسد.) Free Google Colab

Common Docker Issues

Docker در حین دانلود مدل‌های Fine-Tuned گیر می‌کند. (این مشکل برای هر کامپیوتری پیش نمی‌آید، اما برخی به این مشکل برخورد می‌کنند)
غیرفعال کردن نوار پیشرفت به نظر می‌رسد که این مشکل را حل می‌کند، همانطور که در اینجا در #191 بحث شده است.
مثالی از افزودن این اصلاح در دستور docker run

docker run -it --rm --gpus all -e HF_HUB_DISABLE_PROGRESS_BARS=1 -e HF_HUB_ENABLE_HF_TRANSFER=0 -p 7860:7860 --platform=linux/amd64 athomasson2/ebook2audiobook python app.py

Fine Tuned TTS models

شما می‌توانید به راحتی مدل xtts خود را با این مخزن (repo) تنظیم دقیق کنید. xtts-finetune-webui

اگر می‌خواهید به راحتی یک GPU اجاره کنید، می‌توانید این Hugging Face را نیز کپی کنید. xtts-finetune-webui-space فضایی که می‌توانید برای کاهش نویز داده‌های آموزشی به راحتی استفاده کنید نیز وجود دارد. denoise-huggingface-space

Fine Tuned TTS Collection

برای پیدا کردن مجموعه‌ای از مدل‌های TTS که قبلاً تنظیم دقیق شده‌اند، به این لینک Hugging Face مراجعه کنید.
برای یک مدل XTTS سفارشی، همچنین به یک کلیپ صوتی مرجع از صدا نیاز خواهد بود:

Demos

Rainy day صدای

Magic.Tree.House.45.Osborne.Mary.Pope.-.A.Crazy.Day.With.Cobras.mp4

David Attenborough صدای

david_atten_alice_text.mp4

Supported eBook Formats

.epub, .pdf, .mobi, .txt, .html, .rtf, .chm, .lit, .pdb, .fb2, .odt, .cbr, .cbz, .prc, .lrf, .pml, .snb, .cbc, .rb, .tcr
بهترین نتایج: .epub یا .mobi برای تشخیص خودکار فصل‌ها

Output

فایلی با فرمت .m4b با متادیتا و فصل‌ها ایجاد می‌کند.
خروجی مثال:

Common Issues:

-"این کند است!" - فقط در CPU این بسیار کند است و تنها می‌توانید با یک GPU NVIDIA سرعت را افزایش دهید. بحث در مورد این موضوع برای تولید چندزبانه سریع‌تر، من پروژه دیگری که از piper-tts استفاده می‌کند را پیشنهاد می‌کنم این پروژه به جای آن. (این پروژه قابلیت کلونینگ صدای بدون نمونه را ندارد، و صداها کیفیت سیری دارند، اما در CPU بسیار سریع‌تر است.) -"من با مشکلات وابستگی مواجه هستم" - فقط از Docker استفاده کنید، این کاملاً مستقل است و حالت بدون سر دارد. پارامتر -h را بعد از app.py در دستور اجرای Docker اضافه کنید برای اطلاعات بیشتر.

"من با مشکل صدای بریده شده مواجه هستم!" - لطفاً یک مشکل (Issue) در این مورد ایجاد کنید، من به هر زبانی صحبت نمی‌کنم و به مشاوره از هر شخص نیاز دارم تا تابع تقسیم جملات خود را در زبان‌های دیگر تنظیم دقیق کنم. 😊

What I need help with! 🙌

فهرست کامل موارد را می‌توانید در اینجا پیدا کنید.

هر کمکی از افرادی که به یکی از زبان‌های پشتیبانی شده صحبت می‌کنند برای کمک به روش‌های صحیح تقسیم جملات مورد نیاز است.
امکان ایجاد راهنماهای README برای چندین زبان وجود دارد.

Files

README_FA.md

Latest commit

History

README_FA.md

File metadata and controls

📚 ebook2audiobook

رابط کاربری وب جدید نسخه 2.0!

README.md

Table of Contents

Features

Huggingface space demo

Free Google Colab

Supported Languages

Requirements

Installation Instructions

Launching Gradio Web Interface

Basic Usage

Custom XTTS Model Usage

For Detailed Guide with list of all Parameters to use

Using Docker

Running the Docker Container

Building the Docker Container

Docker container file locations

Docker headless guide

برای دریافت دستور کمک برای سایر پارامترهایی که این برنامه دارد، می‌توانید این را اجرا کنید.

Docker Compose

Steps to Run

New v2.0 Docker Web GUI Interface!

Renting a GPU

شما می‌توانید فضای Hugging Face را کپی کنید و یک GPU را به قیمت حدود ۰.۴۰ دلار در ساعت اجاره کنید.

یا می‌توانید از Google Colab به صورت رایگان استفاده کنید!

Common Docker Issues

Fine Tuned TTS models

Fine Tuned TTS Collection

Demos

Supported eBook Formats

Output

Common Issues:

What I need help with! 🙌

فهرست کامل موارد را می‌توانید در اینجا پیدا کنید.

Special Thanks

Legacy V1.0

Join Our Discord Server!