Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 |
Tags
- 통계학분포
- 독립표본t검정
- AHP분석
- 광기의역사
- 데이팅앱
- 청년연구
- 데이터분석
- 취준연구
- 취업준비생연구
- 아도르노
- 사회학
- 공동생산
- 세종시
- Topicmodeling
- LDA
- 베이지안통계학
- 계몽의변증법
- 고급통계학
- 동시출현의미망
- 베버
- 청년비경제활동인구
- Grouped-BarChart
- HLM
- LDA분석
- 논술대회
- 파슨스
- 행렬
- 뒤르켐
- 육체의 변증법
- 고급통계
Archives
- Today
- Total
목록Topicmodeling (2)
Look, See, Why
텍스트마이닝 관련 개념 정리
1) BOW (bag of Words)자연어 처리와 정보 검색 분야에서 텍스트를 수치화하여 컴퓨터가 이해할 수 있게 만드는 가장 기본적이고 단순한 모델.단어의 순서나 문맥 문법은 무시하고 빈도수에 집중하여 문서를 표현한다.각 문장이 사전에 있는 단어들을 몇 번 포함하고 있는지 숫자로 세어 벡터로 만듦. 2) TF-IDF단어의 빈도와 문서 빈도의 역수를 사용해서 각 단어의 중요도를 가중치로 매긴다.불필요한 노이즈를 제거하고 중요한 신호를 찾는데 쓰임.TF=Term Frequency : 특정 문서 안에서 특정 단어가 쓰인 횟수IDF=Inverse Document Frequency : 특정 단어가 등장한 문서 수의 역수TF-IDF=TF X IDF왜 곱할까? 특정 문서에서 자주 쓰인 단어더라도(TF가 높다), ..
사회학 공부/통계 및 데이터분석
2026. 3. 22. 20:39