- 세계 최대 규모 보드게임 커뮤니티 사이트 BoardGameGeek으로부터 데이터를 추출하여 EDA를 통한 향후 트렌드를 분석하는 프로젝트
탐색적 데이터 분석을 통해 다양한 관점에서 보드게임의 현재까지의 트렌드를 분석하여 향후 보드게임 산업의 방향을 예측, 제안해보자 한다.
배경 시대, ip 매체, 구성물, 권장연령, 권장인원, 최대플레이시간, 가격 등 여러가지 측면에서 데이터들을 분석해본 결과 유의미해보이는 경향성을 얻어낼 수 있었다.
- 보드게임이라는 분야가 사람들에게 생소한 분야이기에 신선한 시도를 하기에 좋은 주제라고 판단.
- 국내외 보드게임 커뮤니티 사이트에 데이터가 매우 잘 정리되어 있어 분석을 위한 데이터를 모으기 용이했다.
- 방대한 양의 데이터를 다뤄보는 경험을 체험해보기 위한 목적
- 특정 산업 분야의 트렌드를 분석하는 주제이기에 실무적으로도 의의가 있을 것으로 판단.
출처 사이트
- 보드게임긱 : 세계 최대의 보드게임 커뮤니티 사이트, 해외 보드게임 트렌드 분석을 위한 자료를 수집하는데 사용하였다.
- 보드라이프 : 국내 최대의 보드게임 커뮤니티 사이트, 국내 보드게임 트렌드 분석을 위한 자료를 수집하는데 사용하였다.
- 다나와 : 가격비교 사이트, 다른 항목 상품들과의 비교를 위해 사용하였다.
해당 보드게임 사이트들은 마니악한 보드게임을 고평가하고 캐주얼한 파티게임을 저평가하는 경향성이 있기에 약간의 편향성이 존재할 수 있다는 한계가 있을 수 있다.
[출처 사이트 구조]
표 형식으로 구성된 목록에 랭킹, 이름, 발매년도, 점수, 가격 등의 점수가 정리되어 있다.
해당 항목 클릭 시 상세페이지로 연결되어 권장연령, 난이도, 예상플레이시간, 카테고리, 매커니즘 등 추가적인 정보를 수집할 수 있다.
난점1. : 다루는 데이터의 양이 방대해 코드가 무거워지고 프로그램이 처리하는데 시간이 오래 걸렸다.
총 38만개의 데이터 중 유저 평가가 존재하는 상위 23900개의 데이터만을 수집하고 취급했다.
난점2 : 사이트에서 데이터 목록의 특정구간(20번 이상의 항목)을 조회하기 위해서는 로그인 되어있을 것을 요구했다.
Selenium으로 로그인 한 뒤, 쿠키 정보를 저장해. 해당 쿠키 정보를 가지고 있는 세션을 통해 BeautifulSoup으로 크롤링하는 것이 가능했다.
난점3 : 수집한 soup 상에서 원하는 정보를 조회해봤더니 해당 정보가 존재하지 않는다는 결과가 나왔다.
이는 해당 사이트가 javaScript를 통해 화면 구성이 이루어지는 동적 페이지였기에 발생하는 문제였으며, javaScript 상에 존재하는 문자를 정규식을 통해 정리해 원하는 데이터들을 수집하는 것이 가능했다.
난점4 : 국내 사이트에서 대량의 데이터를 수집하려 시도했더니, 해당 사이트에서 접속을 차단하여 수집이 불가능했다.
따라서 국내 사이트를 출처로 하는 데이터는 상위 100개의 데이터만 수집하고 다루기로 했다.
난점5 : 다루고자 하는 데이터의 카테고리, 매커니즘의 종류수가 굉장히 많았으며, 하나의 항목에 대응되는 카테고리, 매커니즘의 수가 1개가 아니었다.(1:1대응이 아니다.)
여러개의 카테고리, 매커니즘을 나타내는 String들을 List 형태처럼 구성해서 하나의 행에 넣어, 사용할 때에는 별개의 함수를 만들어 처리했다.
각 보드게임 항목별 존재하는 데이터프레임을 선그래프로 분석하기 위해 발매년도를 기준으로 groupby를 통해 통합을 하여 년도별 발매량 데이터프레임으로 가공하였다.
이후 절대적인 양이 아닌 상대적인 비율을 보기 위해 최대값을 1로 scaling하는 함수를 만들었으며 해당하는 데이터프레임으로 가공하였다.
다루는 매커니즘 수가 과도하게 많아 이를 분석하기 위해 매커니증이 정의되어있는 해당 사이트의 공식문서를 보고 비슷한 매커니즘끼리 통합하여 다루었다.
통합하는 기준에 주관이 개입되었을 여지가 있다는 한계가 있을 수 있다.
시각화를 통한 데이터 분석은 크게 발매년도별 발매량 절대값을 분석하기 위한 꺾은선그래프, 실제 일어난 역사적 사건과 발매량의 변화를 비교해 보기 위한 움직이는 바 그래프, 발매년도에 따른 발매비율의 변화를 분석하기 위한 누적바그래프, 전체적인 비율을 보기 위한 파이그래프로 구성된다.
꺾은 선 그래프는 년도에 따라 어떻게 발매량이 급증했는가 보여주기 용이하지만, 항목이 많아질 경우 상세한 분석이 어려워진다는 단점이 존재한다.
움직이는 바 그래프의 경우, 실제 역사적 상황과 비교해 영향을 끼친 요인을 찾아내기에 용이하지만, 전체적으로 흐름이 어떻게 변했는지 한 눈에 파악하기엔 부적합하다는 단점이 존재한다.
누적 바 그래프의 경우, 전체 시간 상에서 각 비율이 어떻게 변화하는지 한 눈에 파악하기에 용이하지만, 왼쪽과 오른쪽 그래프의 데이터 양에 차이가 크기 떄문에 비율상으로는 감소하나 절대값 상으로는 증가하는 등의 케이스가 존재해 해석에 오류를 가져올 수 있다는 한계점이 존재한다.
파이그래프의 경우 전체 비율 구성을 파악기에 용이하나 전체 시간상에서의 통합 비율이 해당 통계를 대표하는 값으로 적합한가하는 문제가 있다.
우선 간단한 상관관계를 출력해보았다.
주목할 만한 상관관계로는 다음과 같은 것들이 있었다.
- 난이도와 평점이 강한 상관관계를 보였다. 사람들은 쉬운 게임보다 어려운 게임을 선호한다고 분석할 수 있겠다.
- 권장 연령과 난이도 역시 강한 상관관계를 보였다. 이에 따라 자연스럽게 권장 연령과 평점 역시 상관관계가 나타났다.
- 평점과 가격은 약한 상관관계를 보였다. 이에 따라 난이도와 가격역시 상관관계를 띄게 되었다.
- 출시일이 경과함에 따라 약하지만 평점이 올라가는 점도 흥미로웠다.
BoardGameGeek
보드게임이 다루는 배경시대와 실제 역사적 사건을 겹쳐 비교하고자 했으나,실제 중요한 역사적 사건들은 보드게임 산업이 급증하기 이전에 존재했다. 따라서 배경시대에 따른 분석은 어려움이 있다고 볼 수 있다.
우선 주목할 부분은 2019년 코로나 발생 이후로 그래프가 급감하는 모습이다.
그래프가 과하게 급감하여 0으로 수렴하는 듯 보이지만 이는 아직 데이터가 다 쌓이지 않은 2023년도와 발매예정인 2024년도 데이터까지 포함되어 일어나는 현상으로, 그래프에 2023년, 2024년도 데이터를 뺐어야했다는 반성이 있다.
하지만 그것을 제외하고 보더라도 코로나 이후 발매량은 급감하는 모습을 보인다. 이는 코로나가 명백하게 보드게임 산업에 타격을 주었음음을 나타낸다.
실제로 한국콘텐츠진흥원에서 발표한 자료에 따르면, 코로나에 의해 보드게임 생산라인에 타격을 입어, 발매량의 감소가 나타났다고 한다. 그러나 '집콕문화'의 영향으로 국내 쇼핑몰에서 보드게임 구매는 늘어나는 모습을 보여, 반드시 부정적인 지표만으로 볼 것은 아닌 것으로 보인다.
한편 각 항목별로 살펴보았을때, 베트남 전쟁 기간에 1,2차 세계대전을 다루는 게임이 많아진 것이 눈에 띈다.
이는 직전의 2차 세계대전이 영향을 미친 것이라는 해석과 전쟁이 없는 상태이기에 더 이상 일상이 아닌 전쟁이라는 분야의 인기가 상승한 것이라는 해석 양쪽을 전부 적용가능하기에 명확한 원인을 추려내기는 쉽지 않아보인다.
또한 현대로 넘어오면서 고대, 중세의 배경을 갖는 보드게임발매가 늘어나는 점 역시 주목할 만하다. 사람들에게 흥미를 일으키는 분야는 자신에게 낯선 배경인것이 아닐까 추정된다.
위는 각 항목별 년도별 보드게임 발매량 비율의 변화를 누적 바 그래프 형태로 표현한 것이다. 첫번째 그래프의 경우 해당 항목의 보드게임들이 발매되지 않은 년도들이 존재하기에 그래프 년도 범위를 바꿔 다시 그린 그래프가 두번째 그래프이다. 시간의 흐름에 따라 SF, 고대, 중세를 배경으로 한 보드게임 발매비율이 늘어나고, 이와는 대조적으로 세계 1,2차대전을 배경으로 하는 게임은 과거에는 매우 비중이 컸으나 현대로 넘어올수록 비중이 줄어드는 것을 확인할 수 있다.
전체적인 보드게임의 배경시대를 시각화해보면, 오랫동안 인기를 끌었던 1차, 2차 세계대전을 배경으로하는 보드게임의 비율이 여전히 압도적이며, 추세상 증가하고 있는 고대, 중세를 배경으로 하는 게임과 , SF를 배경으로 하는 게임의 비율이 주목할 만하다는 점을 볼 수 있다.
이 그래프에서 가장 주목할 만한 점은 과거부터 현재까지 영화를 배경으로 한 보드게임이 최상위권을 유지하고 있다는 점이다. 이는 영화가 가장 대중적인 매체로, 소재로 삼기에 가장 적합한 ip로 받아들여지고 있다는 의미일 것이다.
비율의 변화를 보았을 때, 시간이 흐를수록 만화와 비디오게임을 소재로 한 보드게임의 비율은 증가하며, 반대로 영화와 소설을 소재로 삼은 보드게임의 비율은 감소하는 모습을 볼 수 있다.
이는 시대의 흐름에 따른 주요 매체의 변화를 나타낸다고 볼 수 있겠다. 그러나 이는 엄연히 비율상의 증감으로, 실제로는 모든 매체를 소재로 삼는 보드게임의 발매량은 증가하고 있다는 점에 주의해야 한다.
전체적인 비율을 보았을 경우 오랜 기간 가장 큰 비율을 차지해온 영화를 소재로 한 보드게임의 비율이 압도적으로 높다.
한편 비교적 최근에 늘어나기 시작한 비디오게임과 만화를 소재로 한 보드게임의 비율 또한 무시할 정도의 비율은 아니며, 이들이 더욱 늘어날 것임을 생각하면 현시점 상당한 비율을 차지하고 있을 것임을 알 수 있다.
년도에 따른 보드게임 테마 트렌드를 분석해보았을 때 주목할 만한 점은 톨킨의 등장 이후 판타지 배경의 보드게임이 급증한 점과
스타워즈가 나올 시기에 SF를 배경으로 한 보드게임의 발매가 급증했다는 점이다.
이는 다른 매체의 특정 장르의 인기의 영향으로 보드게임의 트렌드가 변화하는 모습을 보여주는 것으로 생각된다.
다만 톨킨의 경우 생전에 해당하는 시기에 보드게임 발매량이 거의 없어 이것이 진짜 톨킨의 영향력이 맞는가하는 문제가 있다.
비율의 변화로 보았을 때, 과거부터 SF와 판타지를 배경으로 하는 보드게임의 비율이 절대적으로 많았으며
시간의 흐름에 따라 판타지 배경의 보드게임의 비율은 증가하고 SF 배경의 보드게임의 비율은 감소하는 경향을 보인다.
이것은 사람들이 자신에게 낯선 환경을 선호하는 것에 따르는 것이 아닌가 하는 추측을 불러 일으킨다.
다만 주의해야 할 점은 이는 상대적 비율일 뿐 SF 배경의 보드게임 발매량은 증가하는 경향이라는 것이다.
전체 평균 비율을 보았을 경우, 과거부터 꾸준하게 많은 비율을 차지해온 판타지와 SF의 비율이 많은 것을 알 수 있다.
시간이 더욱 경과한다면 앞에서 본 경향성에 의해 이 그래프의 SF의 비중은 줄어들고 판타지의 비중은 늘어날 것임을 추측할 수 있다.
년도에 따른 보드게임 구성물의 변화를 보았을 때 주목할 만한 점은 다음과 같다.
잉크젯 프린터의 보급과 디지털 아트 프로그램의 등장과 함께 카드게임의 비중이 폭발적으로 증가한다는 점과 3D 프린터의 판권 만료와 함께 미니어처 보드게임의 발매가 증가했다는 점이다.
흥미로운 점은 잉크젯 프린터와 3D프린터의 첫 등장 시점이 아닌 대중화되고 저렴해졌을 시점에 폭발적으로 증가했다는 점이다.
이로부터 보드게임 구성물에 영향을 끼치는 것은 새로운 기술의 등장이 아닌 생산단가의 하락이라는 것을 유추할 수 있었다.
비율의 변화를 보았을 때, 많은 구성물이 필요없는 추상전략 보드게임이 초반에는 우세했으나 특정 시점부터 생산단가가 저렴해진 카드게임의 비율이 폭발적으로 급증했고,
최근 3D 프린터의 대중화에 따른 영향인지 미니어처 보드게임의 비율이 폭발적으로 급증하는 추세인 것을 알 수 있다.
전체 평균 비율을 보았을 때, 카드게임의 비율이 압도적으로 높은 것을 알 수 있다.
앞에서의 추세로 유추해보면 이 그래프에서 앞으로 미니어처 게임의 비율은 늘어나고, 추상전략과 주사위 보드게임의 비율은 줄어들 것임을 예상 가능하다.
보드게임이 다루고 있는 도메인 측면에서 분석해 보았을 때 흥미로운 사건들은 다음과 같다.
우선 미국의 엄청난 임팩트를 주었던 정치적 스캔들인 워터게이트 사건 이후 정치를 다루는 보드게임이 급증했다는 점.
그리고 신종플루의 발생 이후 의학 분야를 다루는 보드게임의 발매가 증가했다는 점이다.
또한 농사라는 주제를 다루는 보드게임 거장 '우베 로젠버그' 의 등장 이후 농사를 다루는 보드게임이 급증했다는 점 역시 흥미롭다.
이러한 분석에 의해 현실에 일어난 커다란 사건이 보드게임의 배경 주제로 만들어지는 일이 충분히 있을 것으로 생각된다.
보드게임 비율의 변화를 시간에 흐름에 따라 분석해보았을 경우, 정치를 다루는 보드게임은 꾸준히 인기있어왔으며
최근에는 기술의 발전의 영향으로 우주탐사를 주제로 삼는 보드게임이 급증하고 있는 점이 흥미롭게 보이는 것 같다.
전체 평균 비율을 보았을 때, 역시 꾸준하게 인기있어왔던 정치를 다루는 보드게임의 비율이 높은 것을 알 수 있다.
BoardGameGeek에서 다루는 게임 매커니즘의 가지수가 너무 많아서 임의로 해당 사이트의 정의들을 보고 유사한 매커니즘들을 통합하여 분석하였다.
매커니즘을 통합한 기준은 다음과 같다:
- 트릭테이킹 : 트릭테이킹은 여러개의 선택지(주로 카드)중 자신의 것을 선택하고 나머지만을 다른 사람에게 선택권으로 주는 방식을 기준으로 삼았다.
- 덱빌딩 : 덱빌딩은 지속적으로 공용 시장에서 카드를 구매해 자신의 카드 풀이 늘어나는 방식을 기준으로 삼았다.
- 추상전략 : 추상전략은 기본적인 게임의 시스템, 로직을 위주로 전개되는 바둑, 체스과 같은 방식을 기준으로 삼았다.
- 파티 : 여러명이서 즐기는 순발력과 관찰력등을 주로 요구하는 방식을 기준으로 삼았다. 결과 가장 많은 방식이 포함되었다.
- 솔리테어 : 혼자서 즐기는 카드게임을 기준으로 삼았다.
- 드래프팅 : 드래프팅은 서로 번갈아가며 주로 카드를 통해 한가지의 액션을 하는 방식을 기준으로 삼았다.
- 경매 : 경매는 주로 한정된 자원에 서로 경쟁하여 가장 많은 투자를 한 플레이어가 해당 자원을 가져가는 방식을 기준으로 삼았다.
- 시뮬레이션 : 시뮬레이션은 플레이어의 개입 없이 시스템이 시간에 따라 정해진 규칙에 의해 게임에 변화를 가져오는 방식을 기준으로 삼았다. 주로 전쟁 게임이 여기에 속한다.
- 추리 : 추리는 퍼즐과 소거법 등 논리를 통해 게임이 숨겨놓은 것들을 유추해내는 방식을 기준으로 삼았다.
- 롤앤 라이트 : 롤앤 라이트는 노트에 연필등을 통해 변화를 주고 이를 통해 게임에 승리를 이끌어내는 방식을 기준으로 삼았다.
- 투자 : 투자는 플레이어가 자원을 투자하면 시간 텀을 두고 즉각적이지 않은 이윤이 돌아오는 방식을 기준으로 삼았다.
- 영향력 : 영향력은 여러개의 세력으로 분리되어있는 게임판에 플레이어들이 투자를 해 가장 많은 투자를 한 플레이어가 지속적인 이윤을 얻는 방식을 기준으로 삼았다.
- 스토리 : 스토리는 스토리 텔링이 강조되는 주로 1회성 게임들을 기준으로 삼았다.
- 일꾼 놓기 : 일꾼 놓기는 주로 일꾼으로 표현되는 말을 개방된 칸에 놓음으로써 한 턴에 한정된 행동을 하는 방식을 기준으로 삼았다.
- 만칼라 : 만칼라는 쌓여있는 토큰을 여러칸에 돌아가며 배분하는 방식을 기준으로 삼았다.
다만 이러한 통합에는 통합한 쪽의 주관이 들어갈 수 밖에 없기 때문에 해당 분석은 절대적이지 않음을 유의해야 한다.
시간에 따른 비율의 변화를 보았을 때, 앞의 구성물별 분석을 보았을 때와 유사하게 카드를 다루는 트릭테이킹, 덱빌딩의 비율이 급증하고, 추상전략의 비율이 감소하는 점이 주목할만하다.
파티게임의 경우 많은 하위 매커니즘이 포함되어있기에 과거부터 많은 비율을 차지하고 있으나 최근에는 비율이 줄어드는 추세인 것으로 보인다.
전체 비율로 보았을 때 역시 파티게임이 가장 많은 비율을 차지하고 있으며 다음으로는 카드게임인 덱빌딩이 많은 비율을 차지하고 있는 것을 볼 수 있다.
권장 연령의 경우 다양한 수치로 작성되어 있어 한국 콘텐츠 진흥원의 자료를 기준으로 연령대를 정하고 통합하였다.
해당 기준에 따르면, 0~5세는 영유아, 5~12세는 아동, 12~18세는 청소년, 18세는 성인으로 분류된다.
전반적으로 절반 정도는 아동, 절반정도는 청소년을 최소 권장연령으로 두고 있다. 이는 재미있는 보드게임을 위해서는 복잡한 규칙에 대한 이해가 요구되기 때문으로 보인다.
하지만 미약하게나마 아동도 이해 가능한 보드게임도 늘어나는 것으로 보인다.
대부분의 보드게임의 경우 굳이 최소 연령을 성인으로 지정하지 않기 때문에 성인을 최소연령으로 하는 보드게임은 극히 적어 샘플로 사용하기 어려운 것 같다.
게임 복잡도(weight)의 경우 0~5의 소수로 나타나있어 0~1, 1~2, 2~3, 3~4, 4~5의 5 카테고리로 통합하였다.
시간의 흐름에 따라 복잡도가 전체적으로 상승하는 경향성을 볼 수 있으며, 이는 시간의 흐름에 따른 보드게임 산업의 발전과 이에 따른 유저 층의 수준 상승이 반영된 것이라고 생각된다.
권장 플레이 인원의 경우 여러 정수로 표기되어있어, 이를 분류상 의미있어보이는 5카테고리로 분류하였다.
혼자서 플레이하는 1인, 소수의 2명이서 플레이하는 2인, 보드게임 이용자 평균적이라 생각되는 3~4인, 다수가 즐기는 5~6인, 파티게임에 해당할 7인 이상의 구성이 분류한 카테고리이다.
시간의 흐름에 따라 점차 플레이 권장 인원수가 급격하게 내려가는 추세를 보이며 특히 최근에는 1인용 게임의 비율이 매우 폭증해서 주목할 만한 그래프의 변화를 보여준다.
이는 보드게임은 여럿이서 즐겨야 한다는 고정관념의 파괴와 함께 시대의 흐름에 따라 개인주의 문화가 보편화되고 이에 따라 같이 보드게임을 즐길 인원을 구하기 어려워지는 요구에 따른 대응이 아닐까 싶다.
실제로 1인 플레이를 지원하는 보드게임의 발매가 늘어나는 중이라고 한다.
게임 최대 플레이 시간의 경우도 역시 분단위의 임의의 정수로 표현되어있어, 이를 분류상 의미있어보이는 다섯 카테고리로 분류했다.
분석 결과 기존에는 플레이 시간이 짧은 짧게 즐길 수 있는 게임들이 증가하는 추세였으나 최근에 와서는 규칙의 복잡함의 증가에 따라 오랜 시간을 요구하는 게임의 발매량이 급증하는 추세를 볼 수 있었다.
하지만 여전히 짧은 플레이 시간을 요구하는 게임이 다수임을 알 수 있다.
가격과 관계가 있어보이는 카테고리들을 종류별로 모아보았을 경우 미니어처를 다루는 보드게임의 경우 평균적으로 다른 보드게임에 비해 가격이 높음을 알 수 있다.
반면 아동용 보드게임의 경우 다른 보드게임에 비해 비교적 저렴한 가격을 가지는 것이 흥미롭다.
권장 연령별로 가격을 분석해볼 경우. 샘플 수가 부족한 성인용 게임을 제외하고 대체적으로 권장 연령이 높아질수록 가격이 높아지는 것을 알 수 있다.
복잡도별로 가격을 분석해볼 경우, 복잡도에 거의 완전하게 비례하듯이 가격이 증가하는 모습을 보인다.
아마도 구성물의 증가 및 게임 디자인 비용 증가에 따른 것이 아닐까 생각된다.
권장 인원별로 가격을 분석해볼 경우 전체적으로 권장 인원이 적을수록 가격이 상승하는 경향성을 보이나
극단적으로 인원이 많은 경우 이와는 별개로 높은 가격대를 띄는 것을 볼 수 있다.
게임 디자인의 난이도에 의한 것이 아닌가 생각된다.
플레이 시간과의 가격관계 역시 거의 정비례하는 것으로 보인다.
구성물이 복잡해질 수록 게임의 플레이 시간이 높아지기 때문인 것은 아닐까 추정된다.
- 시간의 흐름에 따라 SF 분야의 수요가 늘어나는 것으로 보이나, 사람들은 낯선 주제를 선호하는 것으로 보인다. 따라서 마찬가지로 시간에 따라 수요가 늘어나는 경향을 보이는 중세 배경 판타지 장르를 배경으로 삼는 것이 주류일 것으로 예상된다.
- 지금까지의 추세로 보았을 때, 특히 코로나 등의 여파가 남아있다면 더더욱 1인용 플레이를 지원하는 보드게임이 강세일 것으로 예상된다.
- 시간의 흐름에 따라 전체적으로 게임의 난이도가 높아지는 경향이 보인다. 따라서 플레이 시간이 길고 복잡한 구성도 시장에서 받아들여질 것으로 예상된다.
- 현대로 넘어올수록 만화, 게임을 원작으로 하는 보드게임이 늘어나는 것을 볼 때 여러 게임, 만화의 판권을 토대로 공격적으로 사업을 전개하는 것도 좋을 것으로 보인다.
- 발매 국가 등에 대한 데이터가 존재하지 않아 국가별 통계 분석이 불가능하였다.
- 국내산 보드게임이 유의미한 정도의 규모가 아니기 때문에 국내산 보드게임에 대한 분석을 할 수 없었다.
- 해당 데이터로 알 수 있는 것은 발매종류뿐, 실질적인 판매량에 대한 데이터는 알 수 없다. 따라서 많이 발매되는 분야에 대한 분석은 가능하나 많이 판매되는 분야는 알기 어렵다.
- 국내 발매후 해외가격 대비 국내가격에 대한 데이터 역시 얻을 수 없었다.
시간이 더 있었다면..
- 움직이는 바 그래프의 항목별 아이콘 이미지가 표시되게끔 만들고 싶었다.
- 움직이는 바 그래프에 좀 더 다양하고 정확한 역사 연표를 표기하고 싶었다.
- 파이그래프도 막대그래프처럼 움직이는 시각화를 시도해보고 싶었다.
- 부족한 데이터를 얻기 위해 국내 사이트를 좀 더 조사해보고 싶었다.
- 성용호 : 웹 크롤링, 데이터 수집 담당 (사용툴 : Selenium, BeautifulSoup, pandas)
- 송승훈 : 데이터 프레임 전처리, 가공 담당 (사용툴 : pandas, numpy, matplotlib)
- 신재성 : 시각화, 디자인 담당 (사용툴 : pandas, matplotlib)
- 크롤링
- data_crawl.ipynb (성용호) : BoardGameGeek 사이트에서 크롤링을 통한 데이터 추출하는 코드
- danawa.ipynb (신재성) : 다나와 사이트에서 아동용 장난감 가격 데이터를 추출하는 코드
- danawa_golf.ipynb (신재성) : 다나와 사이트에서 골프용품 가격 데이터를 추출하는 코드
- boardlife_df.ipynb (성용호) : 보드라이프로부터 크롤링을 통해 데이터를 추출해서 BoardGameGeek의 데이터와 비교하는 코드
- 데이터 프레임 가공
- df_preprocessing.ipynb (송승훈) : 크롤링한 데이터들을 1차 전처리해서 사용하기 용이하게 합쳐놓는 코드
- boardgamegeek_df.ipynb (송승훈) : BoardGameGeek 사이트로부터 추출한 데이터 파일을 가공해서 여러가지 형태로 분석시킨 코드
- 시각화 및 데이터 분석
- design_graph.ipynb(신재성) : 산출된 그래프를 더 효과적인 시각화가 되도록 디자인 개선시킨 코드
- 데이터
- EDA 프로젝트 4조.pptx : 프로젝트 발표 pptx
- boardgame_df.csv : BoardGameGeek으로 부터 추출한 데이터 csv
- booardlife_top100_df : Boardlife에서 추출한 상위 100개 보드게임 데이터 csv