methodology · v0.1
우리는 어떻게 분류하고,
어디서 멈추는지를 공개합니다.
MOSS의 모든 분류는 외부 미디어의 공개 자료에서 추출됩니다. 어떤 데이터가 들어오고, 어떻게 처리되며, 어디서 사람의 검수가 개입하는지 전 과정을 공개합니다. 이 문서는 변경 이력과 함께 버전이 매겨집니다.
데이터 source
추적 채널 화이트리스트의 공개 콘텐츠만 수집합니다. 자막·메타데이터 무단 수집은 하지 않습니다.
| YouTube | Data API v3 (uploads, captions opt-in) |
|---|---|
| 뉴스 매체 | 공식 RSS 또는 제휴 API |
| 커뮤니티 토론 | 공개된 thread / 인용에 한해 |
| 배제 | 비공개 채팅 / 비공개 그룹 / 무단 스크랩 |
분류 파이프라인
- 1수집— 화이트리스트 채널의 신규 콘텐츠 fetch
- 2정규화— 제목·썸네일·본문 발언·고정 댓글을 분리해 저장 (이유는 §03)
- 3요약·주장 추출— cloud LLM (Claude / Grok) 1회 호출로 핵심 주장·인용·토픽·stance JSON 추출
- 4임베딩— `text-embedding-3-small` (1536차원)로 의미 벡터 생성
- 5클러스터링— 코사인 유사도 기반 토픽 정규화 + 토픽 간 엣지 가중치
- 6검수— 샘플 5%에 대해 사람 spot-check + 정치 토픽은 100% 사람 검수
stance 판정 — 무엇을 보는가
영상 요소를 분리해서 봅니다. 합치면 “이 유튜버의 stance”를 잘못 판단할 수 있습니다.
| 제목 | 자극적일 수 있음 — stance 판단에서 제외 |
|---|---|
| 썸네일 | 본문보다 과장 가능 — 별도 기록만 |
| 본문 발언 | stance 판단의 핵심 source |
| 고정 댓글 / 설명란 | 제작자 의도 보충 |
| 일반 댓글 | 시청자 반응으로만 분리, 제작자 stance와 합치지 않음 |
stance label 5단계:
각 stance에 강도 1-3을 함께 기록합니다 (약함 / 중간 / 강함).
프레임 사전
stance가 “찬반”이라면 frame은 “어떤 언어로 말하는가”입니다. 같은 stance라도 frame이 다르면 의미가 다릅니다.
프레임은 채널·이슈에 고정되지 않습니다. 같은 채널이 이슈에 따라 다른 프레임을 씁니다.
갈림 점수 — 0–100
한 이슈에 대한 채널들의 stance 분리 강도. 100에 가까울수록 공론장이 여러 진영으로 분리되어 있음을 의미합니다.
계산식: stance 분포의 엔트로피 × 채널 수 보정. 단일 채널 의견은 점수에 반영하지 않습니다.
stance 변화 감지
각 채널·이슈 페어의 시간순 stance를 추적합니다. 다음 조건이 모두 만족하면 “변화 감지”로 표시합니다.
- 직전 stance 대비 1단계 이상 이동 (예: 찬성 → 유보, 유보 → 반대)
- 변화 시점 전후로 최소 2개 이상의 영상이 새 stance를 지지
- 이전 stance가 90일 이상 일관되게 유지되었거나, 강도가 명백히 상승/하락
침묵 분석
누가 무엇을 말했는지뿐 아니라, 누가 무엇을 말하지 않는지가 공론장의 구조를 드러냅니다. 다음 패턴을 자동 감지합니다.
- 특정 도메인(예: 경제)에서 활발하지만 다른 도메인은 침묵
- 당사자 (사업자·정책 입안자) 본인 발언 부재
- 독립 데이터 없이 정부·기관 발표만 인용
- 해외 매체 다루지만 국내 채널 미확산
가드레일
저작권 / 플랫폼 약관
모든 인용은 80자 이내. 영상은 임베드만 (재호스팅 X). 자막 무단 수집 X. 변형적 분석에 한정.
편향 판정 회피
“좌·우 점수” 미사용. 이슈별 stance와 frame만 분류. 우리는 심판이 아니라 지도입니다.
요약 품질
제목·썸네일·본문·댓글을 분리해 stance는 본문 발언만 기준. 정치 이슈는 100% 사람 검수.
정정 절차
모든 판정에 “정정 요청” 가능. 24시간 안에 회신, 48시간 안에 반영 여부 결정. 채널·인물 본인이 프로필 claim 가능.
변경 이력
- v0.1 — 2026-05: 초기 공개. 5개 vertical (AI·테크 / 경제·투자 / 부동산 / 크립토 / 기타). 정치 vertical 의도적 제외.


