GitHub - cyc1am3n/brunch-article-recommendation-GoldenPass: GoldenPass 팀의 카카오 아레나 "브런치 사용자를 위한 글 추천 대회"의 최종 제출 코드입니다.

Brunch Article Recommendation - Team: GoldenPass

GoldenPass 팀의 카카오 아레나 "브런치 사용자를 위한 글 추천 대회"의 최종 제출 코드입니다.

Dependencies

tensorflow
numpy
pandas
tqdm

사용법

0. 데이터셋 경로 설정

데이터셋이 ./res/ 이외에 위치한 경우는 config.py 를 수정하세요.
데이터셋 폴더에 필요한 데이터는 다음과 같습니다.

res
├── read
│   ├── ...
│   └── ...
└── predict
│   ├── dev.users
│   └── test.users
├── magazine.json
├── metadata.json
└── users.json

1. 필요한 라이브러리 설치

Dependencies에 적혀있는 라이브러리가 이미 설치되어 있다면 건너뛰어도 됩니다.

$ pip3 install -r requirements.txt

2. 모델 만들기

$ python train.py

train.py 를 실행시키면 아래 2-1, 2-2 부분의 database.py 와 item2vec.py 가 실행됩니다.

따라서 위 코드를 실행시키면 따로 database.py 와 item2vec.py 를 실행시킬 필요는 없습니다.

2-1. 추천에 사용할 데이터 만들기

$ python database.py

database.py 를 실행시키면 config.py 에서 설정한 data_root 폴더에 아래와 같은 파일들이 생성됩니다.

article_by_testuser.json: test 유저가 읽었던 모든 글이 dictionary로 저장된 json 파일입니다.
rasby_testuser_100.csv: test 유저가 2월 7일 이후에 읽은 글을 최대 100개까지 저장한 csv파일 입니다.
FEB_top_58647.csv: 2월 14일부터 3월 1일 까지 유저들이 많이 읽은 article 정보입니다.
MAR_article_1.csv: 3월 1일부터 3월 7일까지 등록된 모든 article 정보입니다.
MAR_article_2.csv: 3월 7일부터 3월 14일까지 등록된 모든 article 정보입니다.

2-2. item2vec으로 article간의 유사도 구하기

$ python item2vec.py

item2vec.py 를 실행키면config.py 에서 설정한 data_root 폴더에 아래와 같은 파일들이 생성됩니다.

recent_article_by_user.json : 2월 7일 이후에 읽은 글의 article_id가 유저 별로 저장된 json 파일입니다.
word_to_id_recent.json: recent_article_by_user.json 에 저장된 article_id 를 숫자로 토큰화 시킨 json 파일입니다.
id_to_word_recent.json: 숫자로 토큰화된 데이터를 원래의 article_id 에 대응시킨 json 파일입니다.
article_embedding_matrix_recent_t.npy: recent_article_by_user.json 에 저장된 정보를 바탕으로 item2vec 알고리즘을 적용해서 각 article 을 벡터로 임베딩시킨 .npy 파일입니다.
article_similarity_recent_t.npy: 임베딩된 각 article 의 벡터간 유사도가 계산된 .npy 파일입니다.

3. Inference

$ python inference.py

inference.py 를 실행시키면 test user가 읽을 100개의 글이{데이터셋 폴더}/{hyp}/ (default='0_SUBMIT_FINAL_TEST') 폴더에 recommend.txt 로 저장되어 나옵니다.

4. 모델 설명

추천 알고리즘은 다음과 같습니다.

1. 최근에 읽음 && 구독자 , 최근에 읽은 빈도만큼 아래 3가지 dataset에서 추천합니다.
- FEB_top_30419 : 2월 14일부터 3월 1일 까지 유저들이 많이 읽은 article 정보로, read_cnt 내림차순으로 정렬되어 있음
- MAR_article_1: 3월 1일부터 3월 7일까지 등록된 모든 article 정보입니다.
- MAR_article_2: 3월 7일부터 3월 14일까지 등록된 모든 article 정보입니다.
- 3가지 기간에 추천된 글들을 따로 모으고 최종적으로 한 리스트로 합쳐 추천
- 최근에 읽은 작가 중에 구독자인 사람들의 글들을 3가지 기간에서 가져와 추천하는 방식입니다.
- 구독자 글의 소비가 평균 35%, 글을 작성한 경과일이 지날 수록 읽은 사람이 급격히 감소한다는 것을 반영해 우선적으로 체크했습니다.
2. 최근에 읽음 && 구독자의 글을 읽은 빈도가 작을 경우
- 위와 같은 방법을 추천 글이 30개가 쌓일 때까지 반복
- 구독자의 글들이 다른 기간에 많이 작성되었을 수도 있기때문
3. 최근에 읽지 않았지만 && 구독자인 경우
- 1번과 2번에서 고려된 구독자를 제외하고, 최근에 읽은 구독자의 글들도 위와 같은 방법을 통해 추가 합니다.
4. 최근에 읽은 작가 && 비 구독자
- 최근 경향도 반영해 주기 위해 위와 유사한 방식으로 추천합니다.
5. item2vec
- 남은 유저들은 최근의 읽은 글들을 역순으로 정렬해 전체 유저의 2월 7일부터의 읽은 글들의 패턴이 학습된 item2vec을 활용해 가장 비슷할 것 같은 상위 10개의 글들을 추천합니다.
6. 2월 14일부터 3월 1일까지 읽은 글들의 BEST 글 추천
- 위의 사항에 모두 걸리지 않았거나 남은 글들은 2월 14일부터 3월 1일까지의 글들을 가장 많이 읽은 글들부터 차례대로 추천합니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Brunch Article Recommendation - Team: GoldenPass

Dependencies

사용법

0. 데이터셋 경로 설정

1. 필요한 라이브러리 설치

2. 모델 만들기

2-1. 추천에 사용할 데이터 만들기

2-2. item2vec으로 article간의 유사도 구하기

3. Inference

4. 모델 설명

About

Releases

Packages

Contributors 2

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
README.md		README.md
config.py		config.py
database.py		database.py
inference.py		inference.py
item2vec.py		item2vec.py
requirements.txt		requirements.txt
train.py		train.py
utils.py		utils.py

cyc1am3n/brunch-article-recommendation-GoldenPass

Folders and files

Latest commit

History

Repository files navigation

Brunch Article Recommendation - Team: GoldenPass

Dependencies

사용법

0. 데이터셋 경로 설정

1. 필요한 라이브러리 설치

2. 모델 만들기

2-1. 추천에 사용할 데이터 만들기

2-2. item2vec으로 article간의 유사도 구하기

3. Inference

4. 모델 설명

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages