이 글은 새로운 블로그로 옮겼습니다. 5초후 자동으로 이동합니다.
▶ 새로운 블로그 주소: https://prodskill.com/
▶ 새로운 글 주소: https://prodskill.com/word-extractor-config-runtime-environment/
단어 추출 도구는 Python으로 개발된 도구이고, 실행에 앞서 Python과 필요한 package 설치 등의 환경 구성 과정이 필요하다. 다음의 과정으로 실행환경을 구성한다.
이전 글에서 이어지는 내용이다.
단어 추출 도구(1): 단어 추출 도구 개요
데이터 표준화 작업, 특히 표준 단어 후보군 작성에 유용하게 활용할 수 있는 단어 추출 도구를 소개한다. 목차 1. 단어 추출 도구 개요 1.1. 단어 추출 도구를 개발한 이유 데이터 표준화 초기 작
prodtool.tistory.com
목차
2. 환경구성
2.1. 환경 구성 개요
2.1.1. 권장사항
Anaconda보다는 Miniconda 설치를 권장한다. Anaconda는 너무 많은 package를 기본환경에 설치하여 용량이 크다. 용량이 작고 가볍게 시작할 수 있는 Miniconda를 사용하는 것이 좋다.
Miniconda를 설치하지 않았을 경우 virtualenv 설치를 권장한다. 기본 환경과 격리된 별도의 환경에 package를 설치하면 package의 버전 충돌 문제등을 피할 수 있다.
만약 별 문제가 없을 거라고 판단되거나 단어추출기만을 사용하는 경우 기본환경을 사용해도 무방하다. 이 글은 Windows 10 64bit에서 Miniconda를 사용하는 방법을 설명한다.
2.1.2. 형태소 분석기 선택: Mecab
Mecab은 공개되어 있는 자연어 형태소 분석기중 실행이 가장 빠르고 단어추출이라는 목적에 가장 부합하여 선택하였다. Mecab이 아닌 다른 형태소 분석기를 사용하려면 get_word_list() 함수를 고쳐 사용하면 된다.
2.1.3. 환경 구성 전체 순서
- Miniconda 설치
- 가상환경 생성, 활성화
- 가상환경에 Python 설치
- 가상환경에 필요한 package 설치 (가상환경을 사용하지 않는 경우 기본환경에 설치)
2.2. Miniconda 설치
https://conda.io/en/latest/miniconda.html#windows-installers 에서 Python version을 선택하여 다운로드 한다. 단어 추출 도구는 Python 3.8에서 개발하였고, 3.9에서도 잘 동작한다. 여기서는 3.9를 다운로드하고 설치하겠다.
다운로드된 파일(Miniconda3-py39_4.10.3-Windows-x86_64.exe)을 실행하여 설치를 진행한다. Next 버튼을 몇 번 클릭하면 설치가 완료된다.
이후 작업은 Miniconda Prompt에서 실행한다. 다음 경로에서 실행할 수 있다.
시작메뉴 > Anaconda3 (64bit) > Anaconda Prompt (miniconda3)
2.3. 가상환경 생성, 활성화
Miniconda Prompt를 처음 실행하면 기본 환경(base)이 활성화되어 있다. (위 이미지 참조)
단어 추출 도구를 위한 별도의 가상환경을 생성한다.
(base) C:\Users\ymlee>conda create -n wordextr
다음 명령으로 생성한 가상환경을 활성화한다. 명령어 실행 후 가상환경명(wordextr)이 앞에 보이면 정상적으로 활성화 된 것이다.
(base) C:\Users\ymlee>conda activate wordextr
(wordextr) C:\Users\ymlee>
2.4. 가상환경에 Python 설치
다음 명령어를 실행한다.
(wordextr) C:\Users\ymlee>conda install python
다음과 같은 내용이 출력된다.
(wordextr) C:\Users\ymlee>conda install python
Collecting package metadata (current_repodata.json): done
Solving environment: done
## Package Plan ##
environment location: C:\Users\ymlee\miniconda3\envs\wordextr
added / updated specs:
- python
The following NEW packages will be INSTALLED:
ca-certificates pkgs/main/win-64::ca-certificates-2021.7.5-haa95532_1
certifi pkgs/main/win-64::certifi-2021.5.30-py39haa95532_0
openssl pkgs/main/win-64::openssl-1.1.1l-h2bbff1b_0
pip pkgs/main/win-64::pip-21.2.4-py38haa95532_0
python pkgs/main/win-64::python-3.9.7-h6244533_1
setuptools pkgs/main/win-64::setuptools-58.0.4-py39haa95532_0
sqlite pkgs/main/win-64::sqlite-3.36.0-h2bbff1b_0
tzdata pkgs/main/noarch::tzdata-2021a-h5d7bf9c_0
vc pkgs/main/win-64::vc-14.2-h21ff451_1
vs2015_runtime pkgs/main/win-64::vs2015_runtime-14.27.29016-h5e58377_2
wheel pkgs/main/noarch::wheel-0.37.0-pyhd3eb1b0_1
wincertstore pkgs/main/win-64::wincertstore-0.2-py39h2bbff1b_0
Proceed ([y]/n)?
그냥 엔터키를 누르거나 y 입력후 엔터키를 누르면 설치가 시작된다. 참고로, 설치하지 않으려면 n 입력후 엔터키를 누른다.
2.5. 필요한 package 설치
다음의 명령어로 필요한 package를 설치한다. wordcloud, eunjeon은 conda에서 제공하지 않아 pip로 설치해야 한다.
conda install pywin32
conda install pandas
conda install Jinja2
conda install xlsxwriter
pip install wordcloud
pip install eunjeon
각 package의 용도는 다음과 같다.
- pywin32: MS Word, PowerPoint, Excel 파일을 OLE automation 방식으로 열어서 읽는데 사용
- pandas: 단어 추출 결과를 메모리에서 관리하고, 마지막에 엑셀 파일에 저장하는데 사용
- Jinja2, xlsxwriter: pandas에서 ExcelWriter에 사용
- wordcloud: 단어 추출 결과를 시각화하는데 사용
- eunjeon: 한국어 형태소 분석기 Mecab 사용
eunjeon 설치시 “Microsoft Visual C++ 14.0 or greater is required.” 오류가 발생하는 경우 아래 URL에서 ‘재배포 가능 패키지 및 빌드 도구’ 중 ‘Microsoft Build Tools 2015 업데이트 3’를 다운로드 받아서 설치하고 다시 시도한다.
https://visualstudio.microsoft.com/ko/vs/older-downloads/#microsoft-build-tools-2015-update-3
Visual Studio Older Downloads - 2017, 2015 & Previous Versions
Download previous versions of Visual Studio Community, Professional, and Enterprise softwares. Sign into your Visual Studio (MSDN) subscription here.
visualstudio.microsoft.com
설치시 “C++를 사용한 데스크톱 개발”을 선택하고 설치한다. (아래 화면은 설치 이후에 캡쳐한 화면으로 설치시 화면과 약간 다르다)
"Microsoft Build Tools 2015 업데이트 3" 설치 완료 후, 다음 명령으로 eunjeon을 설치한다.
pip install eunjeon
eunjeon 설치가 완료되었으면, "Microsoft Build Tools 2015 업데이트 3"은 제거해도 된다.
시작 메뉴에서 ‘Visual Studio Installer’를 실행하고 “C++를 사용한 데스크톱 개발” 선택 해제, 우측 하단의 “수정”버튼을 클릭하여 제거한다.
여기까지 진행하면 환경구성은 완료되었다. 다음에는 단어 추출 도구 실행과 결과를 확인하는 방법에 대하여 살펴보겠다.
'DA(Data Architecture) 도구 > 단어 추출 도구' 카테고리의 다른 글
단어 추출 도구 설명글 목록, 목차, 다운로드 (4) | 2021.11.14 |
---|---|
단어 추출 도구(6): 단어 추출 도구 부가 설명 (0) | 2021.11.14 |
단어 추출 도구(5): 단어 추출 도구 소스코드 설명(2) (0) | 2021.11.13 |
단어 추출 도구(4): 단어 추출 도구 소스코드 설명(1) (0) | 2021.11.13 |
단어 추출 도구(3): 단어 추출 도구 실행, 결과 확인 방법 (6) | 2021.10.24 |
단어 추출 도구(1): 단어 추출 도구 개요 (4) | 2021.08.29 |
댓글