문제 정의 : 강의 리뷰를 요약하고, 강의/교수간 유사도 계산
사용 데이터 : 에브리타임 강의 리뷰
사용 기술 : Python, Konlpy
사용 방법론 : TF-IDF, Doc2vec, Cosine Similarity, Jaccard Similarity
Python
복사
자율적으로 개발한 서비스이며, 약 2주간 웹 배포를 진행했습니다.
맡은 역할 : 팀장, 프로젝트 기획, 구인, 데이터 수집 및 분석
개요
학부 3학년, 수강신청을 하기 위해 꿀 과목을 찾고 있었습니다.
교수님의 수업계획서와 강의 평가 커뮤니티를 주로 이용했었는데요
두 곳 내용 기반 검색이 불가능 했고, 한눈에 보기 매우 불편했습니다.
그래서 강의 리뷰를 분석해서 요약하고 추천하는 플랫폼을 만들었습니다.
목표
1. 강의와 교수에 대한 요약 정보를 추출해보자
2. 특정 키워드(ex: 코딩,팀플) 로 강의를 찾을 수 있게 하자
3. 특정 강의와 유사한 강의를 찾아서 추천해 주자
4. 1,2,3번을 기반으로 검색가능한 플랫폼을 만들자
Python
복사
주요 아이디어
데이터
에브리타임 커뮤니티의 강의 리뷰를 직접 크롤링 하여 이용
핵심 키워드 추출 (해쉬태그)
•
TF - IDF 사용 ( Term : 리뷰 , Document : 강의/교수 )
•
Mecab을 이용해 POS -Tagging → 명사만 사용
•
일반적인 단어(ex : '시험', '교수', '수업') Term에서 제거
유사 강의/교수 추천
•
초기 아이디어
평점 기록 바탕 Item-Based Collaborative Filtering
하지만, 익명 커뮤니티여서 리뷰 로그를 구할 방법 X
→ 문서 간 유사도를 이용해, 유사한 것들을 찾아주기만 하자
•
유사도 계산
TF - IDF :
Doc2vec :
실제 사용
전반적으로 TF - IDF가 직관적으로 유사 강의를 추출하는 경향
두 방법으로 나온 유사 항목들을 8:2의 비율로 혼합해 사용
결과물
실제 웹 캡쳐
위의 기능들을 웹에 실어 AWS를 통해 배포 했었습니다.
지속적으로 서비스를 제공하려고 했으나 AWS 비용문제 때문에 2주 동안만 사이트를 운영했고
약 800명의 사용자와 4800번의 페이지 뷰를 기록했습니다.