数据处理中re.findall('##[\u4E00-\u9FA5]')作用 #64

xiaojinglu · 2020-04-23T06:16:39Z

请问预训练中数据处理whole
word mask 中这一行有什么作用，我发现如果去掉这行后效果会显著下降

Line 526 in 13f7849

    
           output_tokens = [t[2:] if len(re.findall('##[\u4E00-\u9FA5]', t))>0 else t for t in tokens]

PeihanDou · 2021-12-08T07:01:39Z

你好，我也有同样的疑问。请问你说的效果显著下降是指什么呢？是说预训练的模型推理精度会下降吗？

sliderSun · 2022-08-12T03:27:24Z

请问预训练中数据处理whole word mask 中这一行有什么作用，我发现如果去掉这行后效果会显著下降

roberta_zh/create_pretraining_data.py

Line 526 in 13f7849

output_tokens = [t[2:] if len(re.findall('##[\u4E00-\u9FA5]', t))>0 else t for t in tokens]

这不就是取除了##的中文部分token吗

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据处理中re.findall('##[\u4E00-\u9FA5]')作用 #64

数据处理中re.findall('##[\u4E00-\u9FA5]')作用 #64

xiaojinglu commented Apr 23, 2020

PeihanDou commented Dec 8, 2021

sliderSun commented Aug 12, 2022

数据处理中re.findall('##[\u4E00-\u9FA5]')作用 #64

数据处理中re.findall('##[\u4E00-\u9FA5]')作用 #64

Comments

xiaojinglu commented Apr 23, 2020

PeihanDou commented Dec 8, 2021

sliderSun commented Aug 12, 2022