DA(Data Architecture) 도구/단어 추출 도구

단어 추출 도구(2): 단어 추출 도구 실행환경 구성

ProDA 2021. 9. 26.

이 글은 새로운 블로그로 옮겼습니다. 5초후 자동으로 이동합니다.

▶ 새로운 블로그 주소: https://prodskill.com/

▶ 새로운 글 주소: https://prodskill.com/word-extractor-config-runtime-environment/

단어 추출 도구는 Python으로 개발된 도구이고, 실행에 앞서 Python과 필요한 package 설치 등의 환경 구성 과정이 필요하다. 다음의 과정으로 실행환경을 구성한다.

 

이전 글에서 이어지는 내용이다.

단어 추출 도구(1): 단어 추출 도구 개요

 

단어 추출 도구(1): 단어 추출 도구 개요

데이터 표준화 작업, 특히 표준 단어 후보군 작성에 유용하게 활용할 수 있는 단어 추출 도구를 소개한다. 목차 1. 단어 추출 도구 개요 1.1. 단어 추출 도구를 개발한 이유 데이터 표준화 초기 작

prodtool.tistory.com

 


목차

     

    2. 환경구성

    2.1. 환경 구성 개요

    2.1.1. 권장사항

    Anaconda보다는 Miniconda 설치를 권장한다. Anaconda는 너무 많은 package를 기본환경에 설치하여 용량이 크다. 용량이 작고 가볍게 시작할 수 있는 Miniconda를 사용하는 것이 좋다.

    Miniconda를 설치하지 않았을 경우 virtualenv 설치를 권장한다. 기본 환경과 격리된 별도의 환경에 package를 설치하면 package의 버전 충돌 문제등을 피할 수 있다.

    만약 별 문제가 없을 거라고 판단되거나 단어추출기만을 사용하는 경우 기본환경을 사용해도 무방하다. 이 글은 Windows 10 64bit에서 Miniconda를 사용하는 방법을 설명한다.

     

    2.1.2. 형태소 분석기 선택: Mecab

    Mecab은 공개되어 있는 자연어 형태소 분석기중 실행이 가장 빠르고 단어추출이라는 목적에 가장 부합하여 선택하였다. Mecab이 아닌 다른 형태소 분석기를 사용하려면 get_word_list() 함수를 고쳐 사용하면 된다.

     

    2.1.3. 환경 구성 전체 순서

    1. Miniconda 설치
    2. 가상환경 생성, 활성화
    3. 가상환경에 Python 설치
    4. 가상환경에 필요한 package 설치 (가상환경을 사용하지 않는 경우 기본환경에 설치)

     

    2.2. Miniconda 설치

    https://conda.io/en/latest/miniconda.html#windows-installers 에서 Python version을 선택하여 다운로드 한다. 단어 추출 도구는 Python 3.8에서 개발하였고, 3.9에서도 잘 동작한다. 여기서는 3.9를 다운로드하고 설치하겠다.

    Miniconda Windows Installers version

     

    다운로드된 파일(Miniconda3-py39_4.10.3-Windows-x86_64.exe)을 실행하여 설치를 진행한다. Next 버튼을 몇 번 클릭하면 설치가 완료된다.

    Miniconda 설치 화면

     

    이후 작업은 Miniconda Prompt에서 실행한다. 다음 경로에서 실행할 수 있다.

    시작메뉴 > Anaconda3 (64bit) > Anaconda Prompt (miniconda3)

    Miniconda Prompt 실행

     

    2.3. 가상환경 생성, 활성화

    Miniconda Prompt를 처음 실행하면 기본 환경(base)이 활성화되어 있다. (위 이미지 참조)

    단어 추출 도구를 위한 별도의 가상환경을 생성한다.

    (base) C:\Users\ymlee>conda create -n wordextr

     

    다음 명령으로 생성한 가상환경을 활성화한다. 명령어 실행 후 가상환경명(wordextr)이 앞에 보이면 정상적으로 활성화 된 것이다.

    (base) C:\Users\ymlee>conda activate wordextr
    (wordextr) C:\Users\ymlee>

     

     

    2.4. 가상환경에 Python 설치

    다음 명령어를 실행한다.

    (wordextr) C:\Users\ymlee>conda install python

     

    다음과 같은 내용이 출력된다.

    (wordextr) C:\Users\ymlee>conda install python
    Collecting package metadata (current_repodata.json): done
    Solving environment: done
    
    ## Package Plan ##
    
      environment location: C:\Users\ymlee\miniconda3\envs\wordextr
    
      added / updated specs:
        - python
    
    
    The following NEW packages will be INSTALLED:
    
      ca-certificates    pkgs/main/win-64::ca-certificates-2021.7.5-haa95532_1
      certifi            pkgs/main/win-64::certifi-2021.5.30-py39haa95532_0
      openssl            pkgs/main/win-64::openssl-1.1.1l-h2bbff1b_0
      pip                pkgs/main/win-64::pip-21.2.4-py38haa95532_0
      python             pkgs/main/win-64::python-3.9.7-h6244533_1
      setuptools         pkgs/main/win-64::setuptools-58.0.4-py39haa95532_0
      sqlite             pkgs/main/win-64::sqlite-3.36.0-h2bbff1b_0
      tzdata             pkgs/main/noarch::tzdata-2021a-h5d7bf9c_0
      vc                 pkgs/main/win-64::vc-14.2-h21ff451_1
      vs2015_runtime     pkgs/main/win-64::vs2015_runtime-14.27.29016-h5e58377_2
      wheel              pkgs/main/noarch::wheel-0.37.0-pyhd3eb1b0_1
      wincertstore       pkgs/main/win-64::wincertstore-0.2-py39h2bbff1b_0
    
    
    Proceed ([y]/n)?

    그냥 엔터키를 누르거나 y 입력후 엔터키를 누르면 설치가 시작된다. 참고로, 설치하지 않으려면 n 입력후 엔터키를 누른다.

     

    2.5. 필요한 package 설치

    다음의 명령어로 필요한 package를 설치한다. wordcloud, eunjeon은 conda에서 제공하지 않아 pip로 설치해야 한다.

    conda install pywin32
    conda install pandas
    conda install Jinja2
    conda install xlsxwriter
    pip install wordcloud
    pip install eunjeon

    각 package의 용도는 다음과 같다.

    • pywin32: MS Word, PowerPoint, Excel 파일을 OLE automation 방식으로 열어서 읽는데 사용
    • pandas: 단어 추출 결과를 메모리에서 관리하고, 마지막에 엑셀 파일에 저장하는데 사용
    • Jinja2, xlsxwriter: pandas에서 ExcelWriter에 사용
    • wordcloud: 단어 추출 결과를 시각화하는데 사용
    • eunjeon: 한국어 형태소 분석기 Mecab 사용

    eunjeon 설치시 “Microsoft Visual C++ 14.0 or greater is required.” 오류가 발생하는 경우 아래 URL에서 ‘재배포 가능 패키지 및 빌드 도구’ 중 ‘Microsoft Build Tools 2015 업데이트 3’를 다운로드 받아서 설치하고 다시 시도한다.

     

    https://visualstudio.microsoft.com/ko/vs/older-downloads/#microsoft-build-tools-2015-update-3

     

    Visual Studio Older Downloads - 2017, 2015 & Previous Versions

    Download previous versions of Visual Studio Community, Professional, and Enterprise softwares. Sign into your Visual Studio (MSDN) subscription here.

    visualstudio.microsoft.com

     

    설치시 “C++를 사용한 데스크톱 개발”을 선택하고 설치한다. (아래 화면은 설치 이후에 캡쳐한 화면으로 설치시 화면과 약간 다르다)

    Microsoft Build Tools 2015 업데이트 3 설치

    "Microsoft Build Tools 2015 업데이트 3" 설치 완료 후, 다음 명령으로 eunjeon을 설치한다.

    pip install eunjeon

     

    eunjeon 설치가 완료되었으면, "Microsoft Build Tools 2015 업데이트 3"은 제거해도 된다.

    시작 메뉴에서 ‘Visual Studio Installer’를 실행하고 “C++를 사용한 데스크톱 개발” 선택 해제, 우측 하단의 “수정”버튼을 클릭하여 제거한다.

    Visual Studio Installer 실행

     

    Microsoft Build Tools 2015 업데이트 3 제거

     


    여기까지 진행하면 환경구성은 완료되었다. 다음에는 단어 추출 도구 실행과 결과를 확인하는 방법에 대하여 살펴보겠다.

    댓글

    💲 추천 글