비정형 데이터의 단어 토큰화

Aaron P 2024. 6. 17. 21:33

2024. 6. 17. 21:33

예제1) 영어 단어를 토큰화해서 단어품사와 함께 데이터 프레임에 넣어보기

조건)

- 문장 : When you have faults, do not fear to abandon them.

결과)

코드)

sentence = 'When you are faults, do not fear to abandon them.'

import nltk
from nltk.tokenize import word_tokenize
import pandas as pd

tokens = word_tokenize(sentence)
p_tag = nltk.pos_tag(tokens)
df1 = pd.DataFrame(p_tag, columns=['Word','Preposition'])
df1
# df = pd.DataFrame(zip(tokens,p_tag), columns=['sen','tag'])
# df

예제2-1) 한글 단어를 토큰화해서 데이터 프레임에 넣어보기

조건)

-문장: '자신감 있는 표정을 지으면 자신감이 생긴다'

-데이터프레임에 값을 넣을때 zip함수를 사용 zip (form, tag)

결과)

코드)

s= '자신감 있는 표정을 지으면 자신감이 생긴다'

from kiwipiepy import Kiwi
import pandas as pd
kiwi = Kiwi()

k_tokens = kiwi.tokenize(s)   #Token(form='자신감', tag='NNG', start=0, len=3)

k_form = []
k_tag = []

for i in range(0,len(k_tokens)):
    k_form.append(k_tokens[i].form)
    k_tag.append(k_tokens[i].tag)
    

df = pd.DataFrame(zip(k_form,k_tag), columns=['Form','Tag'])
df
# df = pd.DataFrame({'Form':form})
# print(df)

예제2-2) 토큰화된 문장에서 '명사형'만 추출하기

결과)

['자신감', '표정', '자신감']

코드)

N_tokens = []

for i in range(0,len(k_tokens)):
    if k_tokens[i].tag[0] == 'N':
        N_tokens.append(k_tokens[i].form)

N_tokens

예제3) 한글 토큰화를 사용해서 여러개의 문장을 '마침표(.)' 로 구분하여 리스트의 각 요소로 구분해 넣기

문장) "한 가지 생각을 선택하라. 그 생각을 당신의 삶으로 만들어라. 그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라. "

조건)

- 문장단위로 나눌때 kiwipiepy의 split_into_sents함수를 사용

결과)

['한 가지 생각을 선택하라.', '그 생각을 당신의 삶으로 만들어라.', '그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라.']

코드)

from kiwipiepy import Kiwi
import pandas as pd
kiwi = Kiwi()

text = "한 가지 생각을 선택하라. 그 생각을 당신의 삶으로 만들어라. 그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라. "

sent_kr = kiwi.split_into_sents(text)

sentence = []

# for i in range(0, len(sent_kr)):
#     sentence.append(sent_kr[i].text)

for s in sent_kr:
    sentence.append(s.text)

sentence

'New Collar Level 2' 카테고리의 다른 글

비정형 데이터의 전처리, 형태소 분석(빈도 계산, wordcloud) (0)	2024.06.18
비정형 데이터의 불용어 제거하기 (0)	2024.06.18
업무 자동화 - Windows 창 활성화 (0)	2024.06.16
웹페이지를 파싱해서 데이터프레임으로 가져오기 (0)	2024.05.06
MS그림판으로 자동으로 그림그리기 (0)	2024.05.06

Python으로 떠나는 여행

비정형 데이터의 단어 토큰화

'New Collar Level 2' 카테고리의 다른 글

+ Recent posts

티스토리툴바