티스토리 뷰
이번 편에서는 1차 추천을 받은 영화들을 동시에 시청한 유저가 있는지 찾아보겠습니다!
영화 크롤링
imdb 웹 페이지는 imdb_id를 키 값으로 해당 영화 페이지에 접근할 수 있습니다.
https://www.imdb.com/title/tt0167261/reviews?sort=helpfulnessScore&dir=desc&ratingFilter=0
일단 1번 추천 영화인 반지의 제왕의 imdb_id를 가지고 페이지에 접근해보면
이렇게 유저 아이디, 유저 리뷰, 평점 등의 정보를 확인할 수 있습니다.
알고싶은 건 유저 아이디와 평점이므로 1차 추천을 받은 영화들에서 필요한 정보를 긁어봅시다!
보통 크롤러를 만들 때 가장 큰 상자(user_name, user_rating)는 딕셔너리 형태( { } )로 만드는게 일반적인데
그렇게 되면 평가를 내리지 않은 값에 대해서는 NaN값으로 인식을 안하고 순위에서 밀려버리기 때문에
다중 리스트 형식을 사용할 수 밖에 없었습니다. 과정을 살펴볼게요!
일단 5개 영화의 각각 24명의 유저(가장 정성스럽게 리뷰한 유저들)를 담은 user_name 리스트 입니다.
5개의 영화들을 한 눈에 살펴보기 위해 괄호를 제거하고 데이터프레임 형태로 변환하고 user_rating과 병합하면
비슷한 유저 탐색
유저 이름과 평점을 한 눈에 보기는 편한데 이 중에 같은 이름을 가진 유저를 눈으로 찾기에는 좀 무리가 있어 보입니다.
저기서 user를 기준으로 value_count를 사용하면 간단하게 중복 유저를 찾을 수 있을 것 같아요!
ccthmovieman-1과 mjw2305 두 유저는 1차 추천의 5개 영화 중 2개 영화를 시청했다는 뜻이네요!
하지만 과연 두 유저가 그 영화들을 전부 재밌게 보았을까요?
살펴보니 두 유저 모두 3,5번 째 영화인 'Return of the Jedi'와 'Armageddon'을 시청 했음을 알 수 있습니다!
두 유저는 과연 두 영화에 몇 점을 주었을까요?
주석처럼 mjw2305는 해당 영화 쪽에서 매니악한 유저일 것이라고 판단됩니다.
'Return of the Jedi'와 'Armageddon'를 재밌게 본 사람에게는 mjw2305유저의 영화 추천은 굉장히 신빈성 있겠죠?
다음 편 부터 비슷한 취향의 유저인 mjw2305 유저에 대한 집중 탐색을 해보겠습니다!
'Data Science > Individual' 카테고리의 다른 글
[Individual] 영화 추천 시스템! 完 - 2차 추천 (0) | 2020.06.02 |
---|---|
[Individual] 영화 추천 시스템! #3 - 1차 추천 (0) | 2020.05.18 |
[Individual] 영화 추천 시스템! #2 - 개요 (0) | 2020.05.08 |
[Individual] 영화 추천 시스템! #1 - 발단 (0) | 2020.05.08 |
[Individual] Arah의 롤 전적 분석 일기 完 - 승률 예측 알고리즘 모델링 & 평점 알리미 챗봇 만들기 (8) | 2020.01.24 |