Mae hwn yn gronfa o fraweddegau Cymraeg sy'n cael eu rhyddhau dan drwydded CC0 a chasglwyd gan aelodau'r Uned Technolegau Iaith, Prifysgol Bangor yn unswydd i fod yn bromptiau ar gyfer recordio sain i hyfforddi modelau adnabod lleferydd Cymraeg. O'r herwydd, maent yn frawddegau gweddol fyr, ac nid ydynt yn cynnwys llawer o nodau a symbolau llai cyffredin.
Cyflwynwyd y frawddegau hyn hefyd i broject Common Voice Mozilla, a defnyddiwyd y brawddegau hyn felly ar gyfer recordio gwirfoddolwyr.
Mae'r ffeil data/cy.txt
yn gasgliad o 14,857 brawddeg o'r ffynonellau canlynol:
- Brawddegau gwreiddiol
- Brawddegau allan o nofelau, ysgrifau a deunydd arall allan o hawlfraint
- Brawddegau o Wicipedia Cymraeg lle rhoddodd yr awduron ganiatâd i ni eu rhyddhau dan drwydded CC0
- Trydariadau, e-byst a deunydd electronig eraill a roddwyd i’r project i’w defnyddio fel promptiau.
Mewn nifer o achosion, ystwythwyd yr iaith a golygwyd y brawddegau yn bur drwm i’w gwneud yn addas i’w darllen yn uchel gan wirfoddolwyr.
Mae'r brawddegau hyn hefyd yn ffurfio rhan o gorpws CC0 ehangach a geir yn https://github.com/techiaith/corpws-CC0.
Dymunwn ddiolch i bawb a’n cynorthwyodd i gasglu’r brawddegau hyn, gan gynnwys y rhai a roddodd eu deunyddiau i ni dan drwyddedau CC0, ac i Mozilla am eu cymorth a’u harweiniad gyda’r project Common Voice.
Mae'r ffeil data/covost/cy.txt
yn ddetholiad o 101,535 brawddeg Cymraeg o gorpws CoVoST. Mae CoVoST yn gorpws amlieithog a ddarparwyd gan Facebook drwy cyfieithu yn beirianyddol brawddegau wahanol ieithoedd Common Voice gan gynnwys y Gymraeg.
Mae mwy o wybodaeth am y gorpws a'r broses ddethol ar gael yn data/covost/README.md