작성중...
딥러닝을 활용한 문장 분류
- GitHub Cloning
>> git clone https://github.com/dlcjfgmlnasa/Text-Classification.git --recursive
- Installing Python Package (with python virtualenv)
>> python -m venv venv # create python virtualenv
>> source venv/source/activte # activate virtualenv
>> (venv) pip install -r requirements.txt # install...
-
Prepare Dataset
Your dataset should look like thisid
: iddocument
: The actual reviewlabel
: The sentiment class of the review. (0: negative, 1: positive)- dataset line split
\t
- example
id document label 1 아 더빙.. 진짜 짜증나네요 목소리 0 2 흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나 1 3 너무재밓었다그래서보는것을추천한다 1 4 교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정 0 5 막 걸음마 뗀 3세부터 초등학교 1학년생인 8살용영화.ㅋㅋㅋ...별반개도 아까움. 0 6 원작의 긴장감을 제대로 살려내지못했다. 0 7 액션이 없는데도 재미 있는 몇안되는 영화 1 8 재미없다 지루하고. 같은 음식 영화인데도 바베트의 만찬하고 넘 차이남....바베트의 만찬은 이야기도 있고 음식 보는재미도 있는데 ; 이건 볼게없다 음식도 별로 안나오고, 핀란드 풍경이라도 구경할랫는데 그것도 별로 안나옴 0 ... ... ... -
Training
- Predicate
- Python 3.6 (may work with other versions, but I used 3.6)
- PyTorch 1.2.0
- konlpy 0.5.1
- Naver sentiment movie corpus v1.0 사용
- https://github.com/e9t/nsmc
paramter
epoch | batch_size | seq_len | embedding_dim | output_channels | dropout_rate | n_grams |
---|---|---|---|---|---|---|
20 | 500 | 20 | 512 | 50 | 0.8 | [2,3,4] |
Training Graph
Test
paramter
epoch | batch_size | seq_len | embedding_dim | rnn_dim | rnn_num_layer | bidirectional |
---|---|---|---|---|---|---|
20 | 500 | 20 | 512 | 50 | 2 | True |
Training Graph
Test
paramter
epoch | batch_size | seq_len | embedding_dim | rnn_dim | rnn_num_layer | bidirectional |
---|---|---|---|---|---|---|
20 | 500 | 20 | 512 | 50 | 2 | True |
Training Graph
Test
paramter
epoch | batch_size | seq_len | embedding_dim | self_attention_dim | self_attention_num_heads |
---|---|---|---|---|---|
20 | 500 | 20 | 512 | 64 | 8 |
Training Graph
Test