안녕하세요. 위기의 코딩맨입니다.
오늘은 BERT를 기반으로 사용하는 SQuAD Dataset에 대해서 간단하게 알아보고 구현해보도록 하겠습니다.
BERT에 대해서 궁금하시면
[ SQuAD Dataset ]
Stanford Question Answering Dataset을 SQuAD로 요약하여 부르며
Wikipedia와 크라우드 워커의 질문으로 구성된 Dataset입니다.
V1.1과 V2.0을 사용하는데 V2.0은 답변이 없는 데이터도 추가된 데이터를 사용합니다.
질문에 대한 답변은 Text or 범위로 구성되어 있습니다.
또한, 500이상의 Wikipedia 기사를 통해 100,000개 이상의 질문 - 답변의 쌍으로 구성됩니다.
https://rajpurkar.github.io/SQuAD-explorer/
해당 링크를 들어가시면 사용되는 데이터의 구성과 설명을 직접 확인할 수 있습니다.
Question + Paragraph를 Input Data로 보내고
Sentence A & Sentence B로 묶어서 처리하게 됩니다.
FIne-Tuning Data 학습에 대한 세팅은 다음과 같이 구성되어있습니다.
Epoch : 3
Learning Rate : 5e-5(0.00005
batch size : 32
해당 데이터 셋의 성능 평과 방식은 크게 2가지 방식이 존재하는데
1. Exact Match, 즉 EM 방식이라고 하며,
예측한 답변과 실제의 답변이 정확하게 일치하는지 비교,
Ground Truth 중 1개라도 동일하게 되면 1, 동일하지 않다면 0을 반환하는 방식입니다.
2. F1 Score 방식으로 정답과 일치하는 Token의 비율을 F1 Score로 계산하는 방식입니다.
기존 모델 대비 높은 Stsate-of-the- art 성능의 EM, F1 Score의 성능을 보여주었습니다.
오늘은 BERT를 기반으로 사용하는
SQuAD에 대해 간단하게 알아보았습니다.
다음시간에 이 Dataset을 이용해보는 시간을 가져보겠습니다.
'Python > Tensorflow' 카테고리의 다른 글
[We-Co] Python Ai 얼굴인식 모델 및 구현 (14) | 2023.05.15 |
---|---|
[We-Co] KorQuAD - 답변 예측하기, BERT, NLP (2) | 2022.02.20 |
[We-Co] BERT - 자연어처리, NLP (0) | 2022.02.11 |
[We-Co] Transformer - 포르투갈어를 영어로 변역 Part.2 (0) | 2022.02.10 |
[We-Co] Transformer - 포르투갈어를 영어로 변역 Part.1 (2) | 2022.02.09 |