예제1) 영어 단어를 토큰화해서 단어품사와 함께 데이터 프레임에 넣어보기

조건)

- 문장 : When you have faults, do not fear to abandon them.

결과)

코드)

sentence = 'When you are faults, do not fear to abandon them.'

import nltk
from nltk.tokenize import word_tokenize
import pandas as pd

tokens = word_tokenize(sentence)
p_tag = nltk.pos_tag(tokens)
df1 = pd.DataFrame(p_tag, columns=['Word','Preposition'])
df1
# df = pd.DataFrame(zip(tokens,p_tag), columns=['sen','tag'])
# df

 

 

예제2-1) 한글 단어를 토큰화해서 데이터 프레임에 넣어보기

조건)

-문장:  '자신감 있는 표정을 지으면 자신감이 생긴다'

-데이터프레임에 값을 넣을때 zip함수를 사용 zip (form, tag) 

결과)

코드)

s= '자신감 있는 표정을 지으면 자신감이 생긴다'

from kiwipiepy import Kiwi
import pandas as pd
kiwi = Kiwi()

k_tokens = kiwi.tokenize(s)   #Token(form='자신감', tag='NNG', start=0, len=3)

k_form = []
k_tag = []

for i in range(0,len(k_tokens)):
    k_form.append(k_tokens[i].form)
    k_tag.append(k_tokens[i].tag)
    

df = pd.DataFrame(zip(k_form,k_tag), columns=['Form','Tag'])
df
# df = pd.DataFrame({'Form':form})
# print(df)

 

 

예제2-2) 토큰화된 문장에서 '명사형'만 추출하기

결과)

['자신감', '표정', '자신감']

 

코드)

N_tokens = []

for i in range(0,len(k_tokens)):
    if k_tokens[i].tag[0] == 'N':
        N_tokens.append(k_tokens[i].form)

N_tokens

 

 

예제3) 한글 토큰화를 사용해서 여러개의 문장을 '마침표(.)' 로 구분하여 리스트의 각 요소로 구분해 넣기

문장) "한 가지 생각을 선택하라. 그 생각을 당신의 삶으로 만들어라. 그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라. "

조건)

- 문장단위로 나눌때  kiwipiepy의 split_into_sents함수를 사용

결과)

['한 가지 생각을 선택하라.', '그 생각을 당신의 삶으로 만들어라.', '그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라.']

 

코드)

from kiwipiepy import Kiwi
import pandas as pd
kiwi = Kiwi()

text = "한 가지 생각을 선택하라. 그 생각을 당신의 삶으로 만들어라. 그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라. "

sent_kr = kiwi.split_into_sents(text)

sentence = []

# for i in range(0, len(sent_kr)):
#     sentence.append(sent_kr[i].text)

for s in sent_kr:
    sentence.append(s.text)

sentence

+ Recent posts