중간발표 스크립트

슬라이드 순서에 맞춘 발표용 원고입니다.

# 중간발표 스크립트 (구어체 장문 버전)

## 슬라이드 1. Semantic Entropy와 Semantic Energy의 상보적 결합을 통한 LLM 환각 탐지: Zero-SE 문제 해결을 중심으로

안녕하세요. 이번 발표에서는 `Semantic Entropy와 Semantic Energy의 상보적 결합을 통한 LLM 환각 탐지`를 말씀드리겠습니다.
부제는 `Zero-SE 문제 해결을 중심으로`입니다.

이번 발표는 결과 숫자만 나열하는 방식보다는, 먼저 연구 목적을 분명히 말씀드리고
그 목적을 기준으로 개념과 실험 결과가 순서대로 이어지도록 설명드리겠습니다.

---

## 슬라이드 2. 과제내용: 연구 배경과 문제의식

먼저 연구 배경입니다.
LLM은 문장을 굉장히 자연스럽게 만들기 때문에, 틀린 답도 처음에는 맞는 정보처럼 보일 때가 많습니다.

그래서 환각 문제는 단순히 정확도가 조금 떨어지는 문제가 아니라,
사용자가 모델을 신뢰하는 순간 바로 위험으로 이어질 수 있는 문제라고 생각했습니다.

예를 들어 의료에서는 잘못된 정보가 안전 문제로 이어질 수 있고,
법률에서는 존재하지 않는 근거를 사실처럼 제시할 수 있고,
금융에서는 수치나 근거 오류가 의사결정 전체를 흔들 수 있습니다.

그래서 저는 환각 탐지를 하나의 점수로 끝내는 문제라기보다,
여러 탐지 메트릭이 어떤 상황에서 강하고 약한지 비교하고,
서로 보완할 수 있는 결합 방식을 찾는 문제로 보고 연구를 진행했습니다.

---

## 슬라이드 3. 과제내용: 연구 목적

이 슬라이드에서는 이번 연구의 목적을 네 가지로 정리했습니다.

첫 번째는 Zero-SE 문제가 실제로 얼마나 자주 나타나는지 정량적으로 확인하는 것입니다.
두 번째는 SE와 Semantic Energy가 서로 다른 유형의 환각을 탐지하는지 확인하는 것입니다.
세 번째는 이 두 메트릭을 상보적으로 결합하는 SE-gated Cascade를 제안하는 것입니다.
네 번째는 기존 문헌과 실험 결과를 함께 사용해서 이 방법의 이론적 근거까지 제시하는 것입니다.

즉 뒤 슬라이드들은 이 네 가지 목적에 대응하도록 구성되어 있습니다.
먼저 개념을 설명하고, 그 다음에 Zero-SE가 왜 문제인지 말하고,
그 다음에 실험 결과로 실제로 그런 현상이 나타나는지 순서대로 보여드리겠습니다.

---

## 슬라이드 4. 과제내용: Semantic Entropy란 무엇인가

먼저 Semantic Entropy입니다.
이 지표는 같은 질문에 대해 여러 번 답변을 생성했을 때,
그 답변들이 의미적으로 얼마나 퍼져 있는지를 보는 지표입니다.

예를 들어 답이 한 방향으로 모이지 않고 여러 의미 클러스터로 나뉜다면,
모델이 확신하지 못하고 있다는 신호로 해석할 수 있습니다.
이럴 때 Semantic Entropy 값은 커집니다.

그래서 SE는 답이 여러 방향으로 흔들리는 경우,
즉 혼란형 환각을 포착하는 데 상대적으로 강한 지표라고 볼 수 있습니다.

---

## 슬라이드 5. 과제내용: Semantic Energy란 무엇인가

다음은 Semantic Energy입니다.
이 지표는 답변들끼리 얼마나 다른지를 직접 보기보다는,
모델이 토큰을 생성하는 순간 얼마나 강한 확신을 보이는지를 보는 지표입니다.

쉽게 말하면 SE는 답변들의 분산을 보는 지표이고,
Energy는 답을 만드는 순간의 내부 확신을 보는 지표라고 이해하시면 됩니다.

이 차이가 중요한 이유는, 여러 번 답을 생성해도 의미가 거의 같게 반복되는 상황에서는
SE만으로는 얻을 수 없는 정보를 Energy가 줄 수 있기 때문입니다.

---

## 슬라이드 6. 과제내용: 왜 Zero-SE 문제가 중요한가

이제 Zero-SE 문제를 말씀드리겠습니다.
Zero-SE는 여러 번 질문해도 거의 같은 의미의 답변만 반복되어서,
SE 값이 0에 가깝게 나오는 상황을 말합니다.

겉으로 보면 모델이 안정적인 것처럼 보이지만,
문제는 이게 정답을 안정적으로 말하는 경우와
오답을 안정적으로 반복하는 경우를 구분해 주지 못한다는 점입니다.

즉 SE가 낮다고 해서 안전하다고 말할 수는 없습니다.
그래서 Zero-SE는 작은 예외가 아니라,
SE 단독으로는 판별력이 약해지는 구조적 실패 구간이라고 보는 것이 맞습니다.

그리고 바로 이 지점 때문에 cascade 방식이 필요합니다.
SE가 잘 안 되는 구간이 있다면, 그 구간을 다른 신호로 넘겨야 하기 때문입니다.

---

## 슬라이드 7. 과제내용: 환각 유형과 제안 방향

이 문제를 좀 더 설명하기 위해, 본 연구에서는 환각을 크게 두 가지로 나눠 봤습니다.
하나는 혼란형이고, 다른 하나는 지어냄형입니다.

혼란형은 모델이 어느 정도 아는 내용인데 답이 여러 방향으로 흔들리는 경우입니다.
반면 지어냄형은 잘 모르는 내용을 비슷한 패턴으로 반복해서 만들어내는 경우입니다.

이렇게 보면 왜 두 지표가 같이 필요한지가 조금 더 분명해집니다.
의미가 흔들리는 경우에는 SE가 잘 보이고,
의미가 하나로 모이지만 그 답이 틀릴 수 있는 경우에는 Energy가 더 의미 있는 신호가 될 수 있습니다.

그래서 제안 방법은 복잡한 결합이 아니라 아주 단순한 규칙입니다.
의미가 흔들릴 때는 SE를 보고, 의미가 하나로 모일 때는 Energy를 보는
SE-gated Cascade를 사용했습니다.

---

## 슬라이드 8. 현재까지 진행정도: 데이터셋과 모델

이제부터는 실제 실험 결과를 말씀드리겠습니다.
데이터셋은 TruthfulQA generation split을 사용했고,
질문마다 여러 응답을 생성해서 비교하는 방식으로 실험했습니다.

생성 모델은 Qwen2.5-3B-Instruct를 사용했고,
의미 비교를 위한 NLI 모델은 DeBERTa-large-mnli를 사용했습니다.

데이터 특성상 환각 비율이 낮지 않기 때문에,
단순 정확도보다 AUROC를 중심으로 보는 것이 적절하다고 판단했습니다.

---

## 슬라이드 9. 현재까지 진행정도: 실험 파이프라인

실험 흐름은 크게 네 단계입니다.
먼저 질문마다 답을 여러 개 생성합니다.
그다음 의미가 비슷한 답끼리 묶어서 의미 클러스터를 만듭니다.

이후 Semantic Entropy와 Semantic Energy를 계산하고,
마지막으로 정답 기준과 비교해서 환각 탐지 성능을 평가합니다.

이렇게 고정된 파이프라인을 사용한 이유는,
같은 조건에서 다시 실행해도 비슷한 결과가 나오는 구조를 유지하기 위해서입니다.

---

## 슬라이드 10. 현재까지 진행정도: Zero-SE 현상의 정량화

첫 번째 연구 목적은 Zero-SE 문제가 실제로 얼마나 자주 나타나는지 확인하는 것이었습니다.
결과를 보면 Zero-SE 구간은 전체 데이터셋 중 19.0%를 차지했습니다.

그리고 더 중요한 것은, 이 구간 내부의 환각 비율이 73.7%였다는 점입니다.
즉 Zero-SE는 단순히 드문 특수 사례가 아니라,
실제로 환각이 많이 몰려 있는 주의 구간이라는 뜻입니다.

이 결과만으로도 SE가 낮다고 해서 안전하다고 볼 수 없다는 점이 분명해집니다.
그래서 Zero-SE를 별도 처리해야 한다는 문제의식이 데이터에서도 확인됐다고 말씀드릴 수 있습니다.

---

## 슬라이드 11. 현재까지 진행정도: Zero-SE 구간에서 Semantic Energy 성능

그다음 질문은 자연스럽게 이어집니다.
그렇다면 Zero-SE 구간에서는 무엇을 사용할 수 있는가 하는 문제입니다.

그래서 Zero-SE 구간만 따로 떼어서 Semantic Energy 성능을 봤고,
그 결과 AUROC 73.6%로 의미 있는 분리력을 확인했습니다.

이 점이 중요한 이유는, Zero-SE가 단순히 SE의 실패 구간으로 끝나는 게 아니라
다른 지표로 보완 가능한 구간이라는 점을 보여주기 때문입니다.

즉 이 결과는
"Zero-SE를 따로 봐야 한다"는 주장과
"그 구간에서는 Energy를 써야 한다"는 주장을 동시에 뒷받침합니다.

---

## 슬라이드 12. 현재까지 진행정도: SE와 Energy의 구간별 비교

이 슬라이드에서는 두 지표를 구간별로 비교했습니다.
낮은 구간에서는 Energy가 더 유리했고,
중간 구간과 높은 구간에서는 SE가 더 좋은 경향을 보였습니다.

이 결과는 연구 목적 두 번째와 직접 연결됩니다.
즉 SE와 Energy는 서로 완전히 같은 종류의 환각을 보는 것이 아니라,
구간과 상황에 따라 다른 강점을 가진다는 뜻입니다.

그래서 여기서의 결론은
"둘 중 하나를 고르는 문제"가 아니라
"어느 구간에서 어느 지표를 쓸 것인가"를 결정하는 문제가 더 중요하다는 것입니다.

---

## 슬라이드 13. 현재까지 진행정도: SE-gated Cascade 성능

이제 제안한 결합 방식의 전체 성능을 말씀드리겠습니다.
SE-only는 61.3%, Energy-only는 55.0%,
SE-gated Cascade는 64.2%로 가장 높게 나왔습니다.

여기서 핵심은 점수 차이 하나만 보는 것이 아닙니다.
중요한 것은 이 개선이 Zero-SE 같은 실패 구간을 따로 처리하면서 생겼다는 점입니다.

즉 이 결과는 단순 튜닝보다
"실패 구간을 기준으로 지표를 선택하는 규칙이 실제로 유효하다"는 쪽에 더 가까운 의미를 가집니다.

---

## 슬라이드 14. 현재까지 진행정도: 상보성 분석과 현재 결론

상보성 분석에서도 비슷한 결론이 나왔습니다.
Energy만 탐지하는 환각 영역이 13.4% 있었고,
SE만 탐지하는 영역도 13.4% 있었습니다.

즉 한 지표만으로는 놓치는 환각이 실제로 존재하고,
두 지표를 함께 봐야 전체 탐지 범위를 더 넓힐 수 있다는 점을 확인했습니다.

여기까지를 정리하면,
Zero-SE 문제는 실제로 존재하고,
그 구간은 위험도가 높고,
Energy는 그 구간에서 보완 신호로 작동하며,
그 결과 두 메트릭의 결합이 실제 성능 개선으로 이어졌습니다.

그리고 지금은 이 결과를 바탕으로 논문 본문도 같은 흐름으로 작성하고 있습니다.

---

## 슬라이드 15. 앞으로 할일: 논문 작성 진행 상황

현재 논문은 연구 목적이 먼저 분명하게 보이고,
그 다음에 개념 설명과 실험 결과가 자연스럽게 이어지도록 구조를 다시 정리하고 있습니다.

특히 Zero-SE 문제를 왜 중요하게 봐야 하는지,
그리고 왜 이 문제에서 cascade 방식이 필요한지를
연구 배경에서부터 자연스럽게 이해할 수 있도록 본문 순서를 조정하고 있습니다.

또한 SE와 Energy를 각각 설명한 다음,
두 지표가 서로 다른 환각 유형에서 어떤 역할을 하는지
독자가 끊기지 않고 따라올 수 있게 문단 흐름을 정리하고 있습니다.

---

## 슬라이드 16. 앞으로 할일: 논문 보강 계획

마지막으로 남은 작업입니다.
연구 배경에서는 Zero-SE 문제에서 왜 cascade가 필요한지 더 분명하게 쓰려고 합니다.

이론적 배경에서는 혼란과 지어냄을 구분하는 근거를
추가 문헌을 통해 더 탄탄하게 보강할 예정입니다.

그리고 전체적으로는 연구 목적, 개념 설명, 실험 결과, 결론이
하나의 흐름으로 읽히도록 논문을 마무리할 계획입니다.

최종적으로는 독자가 결과만 보고 납득하는 것이 아니라,
본문을 읽는 과정에서부터
"아, 이 경우에는 SE만으로 부족해서 Energy를 같이 써야 하는구나"라고
자연스럽게 이해할 수 있는 논문 구조를 만드는 것이 목표입니다.