-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于数据预处理部分问题 #5
Comments
您好。数据整理成raw_data/sent/imdb下的格式,然后运行preprocess/prep_sent.py即可,多分类不需要改代码。 Fine-tune的时候需要改一下代码,因为我的imdb是2分类,你可以直接修改我的imdb数据处理类代码,或者可以仿照着自己写一个。具体参考finetune/sent_data_utils_sentilr.py中的line 143-line 169,主要是改get_labels函数中的类别标签集合。 |
嗯,数据已处理成您提供的格式,运行prep_sent.py后会报这种错误,您看这该如何解决? |
请问您在我提供的raw_data数据上能跑通吗?我这边跑我提供的raw_data数据是没问题的。您提供的traceback看起来像是sentence transformers编码句子的时候内部出现了问题: File "prep_sent.py", line 117, in process_text 我猜测可能是sentence transformers和huggingface transformers的版本不匹配导致的,我的预处理环境如下: 建议您先检查版本是否对应,然后再根据traceback信息进行debug。 |
您提供的raw_data数据集我也跑不通。报错与我自己的数据集相同。您可以看我给你发的邮件(您论文中提供的邮箱) Using cached https://pypi.tuna.tsinghua.edu.cn/packages/51/9d/cef25b5faabdc1b54d218012ee821292312e139e76cc40105c824ad024bb/sentence-transformers-0.2.6.tar.gz (55 kB) 所以我使用了另一种方法从github下载0.2.6的版本。 |
sentence transformers 0.2.6的requirements.txt里写的是transformers==2.3.0,至少我下载的这版是这样,使用的时候也没有因为不兼容而报错。包稍后发到您的邮箱。 您最后提到的这个问题: |
The text was updated successfully, but these errors were encountered: