From 571e0887a715c48f4507f414301e0aff2fa39046 Mon Sep 17 00:00:00 2001 From: andreihar <95883512+andreihar@users.noreply.github.com> Date: Tue, 14 May 2024 02:12:54 -0700 Subject: [PATCH] Updated README translations --- readme/README-cmn.md | 101 +++++++++++++++++++++++++++------------ readme/README-oan.md | 109 ++++++++++++++++++++++++++++++------------- 2 files changed, 148 insertions(+), 62 deletions(-) diff --git a/readme/README-cmn.md b/readme/README-cmn.md index 79a2716..3fdf903 100644 --- a/readme/README-cmn.md +++ b/readme/README-cmn.md @@ -58,8 +58,13 @@ <li><a href="#convert-non-cjk">Convert non-CJK</a></li> </ul> </li> - <li><a href="#tokeniser">Tokeniser</a></li> - <li><a href="#其他功能">其他功能</a></li> + <li> + <a href="#tokeniser">Tokeniser</a> + <ul> + <li><a href="#keep-original">Keep original</a></li> + </ul> + </li> + <li><a href="#其他函式">其他函式</a></li> </ul> </li> <li><a href="#例子">例子</a></li> @@ -94,13 +99,13 @@ $ pip install taibun ### Converter -`Converter` 類別使用開發人員指定的參數將漢字音譯為所選的音譯系統。適用於繁體和簡體字符。 +`Converter` 類別使用開發人員指定的參數將中文字音譯為所選的音譯系統。適用於繁體和簡體字符。 ```python # 建構子 c = Converter(system, dialect, format, delimiter, sandhi, punctuation, convert_non_cjk) -# 音譯漢字 +# 音譯中文字 c.get(input) ``` @@ -173,9 +178,9 @@ c.get(input) * `auto` - 對於 `Tongiong` * `none` - 對於 `Tailo`, `POJ`, `Zhuyin`, `TLPA`, `Pingyim`, `IPA` -| 文本 | none | auto | exc_last | incl_last | -| ---------------- | ------------------------- | -------------------------- | ------------------------- | ------------------------- | -| 這是你的手機仔無 | Tse sī lí ê tshiú-ki-á bô | Tse sì li ē tshiu-kī-á bô? | Tsē sì li ē tshiu-kī-a bô | Tsē sì li ē tshiu-kī-a bō | +| 文本 | none | auto | exc_last | incl_last | +| ---------------- | ----------------------- | ---------------------- | ---------------------- | ---------------------- | +| 這是你的茶桌仔無 | Tse sī lí ê tê-toh-á bô | Tse sì li ē tē-to-á bô | Tsē sì li ē tē-tó-a bô | Tsē sì li ē tē-tó-a bō | 變調規則也會根據所選擇的方言而變化。 @@ -211,24 +216,38 @@ c.get(input) ```python # 建構子 -t = Tokeniser() +t = Tokeniser(keep_original) # 標記臺灣語句 t.tokenise(input) ``` -### 其他功能 +#### Keep original + +`keep_original` Boolean - 定義是否保留輸入的原始字符。 + +* `True` (預設) - 保留原始字符 +* `False` - 使用資料集中定義的字符替換原始字符 + +| 文本 | True | False | +| ------------ | -------------------- | -------------------- | +| 臺灣火鸡肉饭 | ['臺灣', '火鸡肉饭'] | ['台灣', '火雞肉飯'] | + +### 其他函式 -實用的臺灣話 NLP 助手功能。 +實用的臺灣話 NLP 助手函式。 + +`to_traditional` 函式將輸入轉換為繁體字元以便於資料集使用。也可應對繁體字符變體。 + +`to_simplified` 函式將輸入轉換為簡體字元。 + +`is_cjk` 函式檢查輸入字串是否完全由中文字符組成。 ```python -# 轉換為繁體 to_traditional(input) -# 轉換為簡體 to_simplified(input) -# 檢查字串是否完全由中文字符組成 is_cjk(input) ``` @@ -283,20 +302,20 @@ c.get("先生講,學生恬恬聽。") ## Sandhi c = Converter() # 在 Tailo 中,sandhi 預設值: none -c.get("這是台灣囡仔") ->> Tse sī Tâi-uân gín-á +c.get("這是你的茶桌仔無") +>> Tse sī lí ê tê-toh-á bô c = Converter(sandhi='auto') -c.get("這是台灣囡仔") ->> Tse sì Tāi-uān gin-á +c.get("這是你的茶桌仔無") +>> Tse sì li ē tē-to-á bô c = Converter(sandhi='exc_last') -c.get("這是台灣囡仔") ->> Tsē sì Tāi-uān gin-á +c.get("這是你的茶桌仔無") +>> Tsē sì li ē tē-tó-a bô c = Converter(sandhi='incl_last') -c.get("這是台灣囡仔") ->> Tsē sì Tāi-uān gin-a +c.get("這是你的茶桌仔無") +>> Tsē sì li ē tē-tó-a bō ## Punctuation c = Converter() # punctuation 預設值: format @@ -308,11 +327,11 @@ c.get("太空朋友,恁好!恁食飽未?") >> thài-khong pîng-iú,lín-hó!lín tsia̍h-pá buē? ## Convert non-CJK -c = Convert(system='Zhuyin') # convert_non_cjk 預設值: False +c = Converter(system='Zhuyin') # convert_non_cjk 預設值: False c.get("我食pháng") >> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ pháng -c = Convert(system='Zhuyin', convert_non_cjk=True) +c = Converter(system='Zhuyin', convert_non_cjk=True) c.get("我食pháng") >> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ ㄆㄤˋ @@ -324,16 +343,40 @@ t = Tokeniser() t.tokenise("太空朋友,恁好!恁食飽未?") >> ['太空', '朋友', ',', '恁好', '!', '恁', '食飽', '未', '?'] +## Keep Original +t = Tokeniser() # keep_original 預設值: True +t.tokenise("爲啥物臺灣遮爾好?") +>> ['爲啥物', '臺灣', '遮爾', '好', '?'] + +t.tokenise("为啥物台湾遮尔好?") +>> ['为啥物', '台湾', '遮尔', '好', '?'] + +t = Tokeniser(False) +t.tokenise("爲啥物臺灣遮爾好?") +>> ['為啥物', '台灣', '遮爾', '好', '?'] -# 其他功能 +t.tokenise("为啥物台湾遮尔好?") +>> ['為啥物', '台灣', '遮爾', '好', '?'] + + +# 其他函式 from taibun import to_traditional, to_simplified, is_cjk -to_traditional("我听无台湾话") ->> 我聽無台灣話 +## to_traditional +to_traditional("我听无台语") +>> 我聽無台語 + +to_traditional("我爱这个个人台面") +>> 我愛這个個人檯面 + +to_traditional("爲啥物") +>> 為啥物 -to_simplified("我聽無臺灣話") ->> 我听无台湾话 +## to_simplified +to_simplified("我聽無台語") +>> 我听无台语 +## is_cjk is_cjk('我食麭') >> True @@ -377,7 +420,7 @@ is_cjk('我食pháng') [licence-badge]: https://img.shields.io/github/license/andreihar/taibun?color=000000&style=for-the-badge&label=執照 [licence]: ../LICENSE [linkedin-badge]: https://img.shields.io/badge/LinkedIn-0077b5?style=for-the-badge&logo=linkedin&logoColor=ffffff -[linkedin]: https://www.linkedin.com/in/andrei-harbachov/ +[linkedin]: https://www.linkedin.com/in/andreihar/ [js-badge]: https://img.shields.io/badge/JS_版本-f7df1e?style=for-the-badge&logo=javascript&logoColor=000000 [js-link]: https://github.com/andreihar/taibun.js [downloads-badge]: https://img.shields.io/pypi/dm/taibun.svg?style=for-the-badge&label=下載 diff --git a/readme/README-oan.md b/readme/README-oan.md index 7ef6c37..bbe29bd 100644 --- a/readme/README-oan.md +++ b/readme/README-oan.md @@ -58,8 +58,13 @@ <li><a href="#convert-non-cjk">Convert non-CJK</a></li> </ul> </li> - <li><a href="#tokeniser">Tokeniser</a></li> - <li><a href="#其他的功能">其他的功能</a></li> + <li> + <a href="#tokeniser">Tokeniser</a> + <ul> + <li><a href="#keep-original">Keep original</a></li> + </ul> + </li> + <li><a href="#其他的函式">其他的函式</a></li> </ul> </li> <li><a href="#例">例</a></li> @@ -94,13 +99,13 @@ $ pip install taibun ### Converter -`Converter` 類別使用開發人員指定的參數將漢文音譯為所選的音譯系統。繁體佮簡體攏合用。 +`Converter` 類別使用開發人員指定的參數將中文字音譯為所選的音譯系統。繁體佮簡體攏合用。 ```python # 建構仔 c = Converter(system, dialect, format, delimiter, sandhi, punctuation, convert_non_cjk) -# 音譯漢文 +# 音譯中文字 c.get(input) ``` @@ -147,7 +152,7 @@ c.get(input) `delimiter` String - 設定欲放佇詞音節中間的分隔符。 -預設值看所選的 `system` 決定: +預設值看所選的 `system` 決定: * `'-'` - 對著 `Tailo`, `POJ`, `Tongiong` * `''` - 對著 `Pingyim` @@ -173,15 +178,15 @@ c.get(input) * `auto` - 對著 `Tongiong` * `none` - 對著 `Tailo`, `POJ`, `Zhuyin`, `TLPA`, `Pingyim`, `IPA` -| 文本 | none | auto | exc_last | incl_last | -| ---------------- | ------------------------- | -------------------------- | ------------------------- | ------------------------- | -| 這是你的手機仔無 | Tse sī lí ê tshiú-ki-á bô | Tse sì li ē tshiu-kī-á bô? | Tsē sì li ē tshiu-kī-a bô | Tsē sì li ē tshiu-kī-a bō | +| 文本 | none | auto | exc_last | incl_last | +| ---------------- | ----------------------- | ---------------------- | ---------------------- | ---------------------- | +| 這是你的茶桌仔無 | Tse sī lí ê tê-toh-á bô | Tse sì li ē tē-to-á bô | Tsē sì li ē tē-tó-a bô | Tsē sì li ē tē-tó-a bō | 變調規則也會隨著選的方言而有所改變。 -| 文本 | 沒有變速 | south | north | -| ---- | -------- | ------- | ------- | -| 台灣 | Tâi-uân | Tāi-uân | Tài-uân | +| 文本 | 無變速 | south | north | +| ---- | ------- | ------- | ------- | +| 台灣 | Tâi-uân | Tāi-uân | Tài-uân | #### Punctuation @@ -211,24 +216,38 @@ c.get(input) ```python # 建構仔 -t = Tokeniser() +t = Tokeniser(keep_original) # 標記台語句 t.tokenise(input) ``` -### 其他的功能 +#### Keep original + +`keep_original` Boolean - 定義保留輸入的原始字符。 + +* `True` (預設) - 保留原始字符 +* `False` - 使用資料集中定義的字符替換原始字符 + +| 文本 | True | False | +| ------------ | -------------------- | -------------------- | +| 臺灣火鸡肉饭 | ['臺灣', '火鸡肉饭'] | ['台灣', '火雞肉飯'] | + +### 其他的函式 -實用的台語 NLP 助手功能。 +實用的台語 NLP 助手函式。 + +`to_traditional` 函式共輸入轉換做繁體字元以便佇資料集使用。嘛會當應對繁體字符變體。 + +`to_simplified` 函式共輸入轉換做簡體字元。 + +`is_cjk` 函式檢查輸入字串敢是完全由中文字符成做。 ```python -# 轉換做繁體 to_traditional(input) -# 轉換做簡體 to_simplified(input) -# 檢查字串是毋是完全由中文字符組成 is_cjk(input) ``` @@ -283,20 +302,20 @@ c.get("先生講,學生恬恬聽。") ## Sandhi c = Converter() # 佇 Tailo 中,sandhi 預設值: none -c.get("這是台灣囡仔") ->> Tse sī Tâi-uân gín-á +c.get("這是你的茶桌仔無") +>> Tse sī lí ê tê-toh-á bô c = Converter(sandhi='auto') -c.get("這是台灣囡仔") ->> Tse sì Tāi-uān gin-á +c.get("這是你的茶桌仔無") +>> Tse sì li ē tē-to-á bô c = Converter(sandhi='exc_last') -c.get("這是台灣囡仔") ->> Tsē sì Tāi-uān gin-á +c.get("這是你的茶桌仔無") +>> Tsē sì li ē tē-tó-a bô c = Converter(sandhi='incl_last') -c.get("這是台灣囡仔") ->> Tsē sì Tāi-uān gin-a +c.get("這是你的茶桌仔無") +>> Tsē sì li ē tē-tó-a bō ## Punctuation c = Converter() # punctuation 預設值: format @@ -308,11 +327,11 @@ c.get("太空朋友,恁好!恁食飽未?") >> thài-khong pîng-iú,lín-hó!lín tsia̍h-pá buē? ## Convert non-CJK -c = Convert(system='Zhuyin') # convert_non_cjk 預設值: False +c = Converter(system='Zhuyin') # convert_non_cjk 預設值: False c.get("我食pháng") >> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ pháng -c = Convert(system='Zhuyin', convert_non_cjk=True) +c = Converter(system='Zhuyin', convert_non_cjk=True) c.get("我食pháng") >> ㆣㄨㄚˋ ㄐㄧㄚㆷ˙ ㄆㄤˋ @@ -324,16 +343,40 @@ t = Tokeniser() t.tokenise("太空朋友,恁好!恁食飽未?") >> ['太空', '朋友', ',', '恁好', '!', '恁', '食飽', '未', '?'] +## Keep Original +t = Tokeniser() # keep_original 預設值: True +t.tokenise("爲啥物臺灣遮爾好?") +>> ['爲啥物', '臺灣', '遮爾', '好', '?'] + +t.tokenise("为啥物台湾遮尔好?") +>> ['为啥物', '台湾', '遮尔', '好', '?'] + +t = Tokeniser(False) +t.tokenise("爲啥物臺灣遮爾好?") +>> ['為啥物', '台灣', '遮爾', '好', '?'] -# 其他的功能 +t.tokenise("为啥物台湾遮尔好?") +>> ['為啥物', '台灣', '遮爾', '好', '?'] + + +# 其他的函式 from taibun import to_traditional, to_simplified, is_cjk -to_traditional("我听无台湾话") ->> 我聽無台灣話 +## to_traditional +to_traditional("我听无台语") +>> 我聽無台語 + +to_traditional("我爱这个个人台面") +>> 我愛這个個人檯面 + +to_traditional("爲啥物") +>> 為啥物 -to_simplified("我聽無臺灣話") ->> 我听无台湾话 +## to_simplified +to_simplified("我聽無台語") +>> 我听无台语 +## is_cjk is_cjk('我食麭') >> True @@ -377,7 +420,7 @@ is_cjk('我食pháng') [licence-badge]: https://img.shields.io/github/license/andreihar/taibun?color=000000&style=for-the-badge&label=牌照 [licence]: ../LICENSE [linkedin-badge]: https://img.shields.io/badge/LinkedIn-0077b5?style=for-the-badge&logo=linkedin&logoColor=ffffff -[linkedin]: https://www.linkedin.com/in/andrei-harbachov/ +[linkedin]: https://www.linkedin.com/in/andreihar/ [js-badge]: https://img.shields.io/badge/JS_版本-f7df1e?style=for-the-badge&logo=javascript&logoColor=000000 [js-link]: https://github.com/andreihar/taibun.js [downloads-badge]: https://img.shields.io/pypi/dm/taibun.svg?style=for-the-badge&label=下載