예제1) 영어 단어를 토큰화해서 단어품사와 함께 데이터 프레임에 넣어보기
조건)
- 문장 : When you have faults, do not fear to abandon them.
결과)
코드)
sentence = 'When you are faults, do not fear to abandon them.'
import nltk
from nltk.tokenize import word_tokenize
import pandas as pd
tokens = word_tokenize(sentence)
p_tag = nltk.pos_tag(tokens)
df1 = pd.DataFrame(p_tag, columns=['Word','Preposition'])
df1
# df = pd.DataFrame(zip(tokens,p_tag), columns=['sen','tag'])
# df
예제2-1) 한글 단어를 토큰화해서 데이터 프레임에 넣어보기
조건)
-문장: '자신감 있는 표정을 지으면 자신감이 생긴다'
-데이터프레임에 값을 넣을때 zip함수를 사용 zip (form, tag)
결과)
코드)
s= '자신감 있는 표정을 지으면 자신감이 생긴다'
from kiwipiepy import Kiwi
import pandas as pd
kiwi = Kiwi()
k_tokens = kiwi.tokenize(s) #Token(form='자신감', tag='NNG', start=0, len=3)
k_form = []
k_tag = []
for i in range(0,len(k_tokens)):
k_form.append(k_tokens[i].form)
k_tag.append(k_tokens[i].tag)
df = pd.DataFrame(zip(k_form,k_tag), columns=['Form','Tag'])
df
# df = pd.DataFrame({'Form':form})
# print(df)
예제2-2) 토큰화된 문장에서 '명사형'만 추출하기
결과)
['자신감', '표정', '자신감']
코드)
N_tokens = []
for i in range(0,len(k_tokens)):
if k_tokens[i].tag[0] == 'N':
N_tokens.append(k_tokens[i].form)
N_tokens
예제3) 한글 토큰화를 사용해서 여러개의 문장을 '마침표(.)' 로 구분하여 리스트의 각 요소로 구분해 넣기
문장) "한 가지 생각을 선택하라. 그 생각을 당신의 삶으로 만들어라. 그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라. "
조건)
- 문장단위로 나눌때 kiwipiepy의 split_into_sents함수를 사용
결과)
['한 가지 생각을 선택하라.', '그 생각을 당신의 삶으로 만들어라.', '그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라.']
코드)
from kiwipiepy import Kiwi
import pandas as pd
kiwi = Kiwi()
text = "한 가지 생각을 선택하라. 그 생각을 당신의 삶으로 만들어라. 그걸 생각하고, 꿈꾸고, 그에 기반하여 살아가라. "
sent_kr = kiwi.split_into_sents(text)
sentence = []
# for i in range(0, len(sent_kr)):
# sentence.append(sent_kr[i].text)
for s in sent_kr:
sentence.append(s.text)
sentence
'New Collar Level 2' 카테고리의 다른 글
비정형 데이터의 전처리, 형태소 분석(빈도 계산, wordcloud) (0) | 2024.06.18 |
---|---|
비정형 데이터의 불용어 제거하기 (0) | 2024.06.18 |
업무 자동화 - Windows 창 활성화 (0) | 2024.06.16 |
웹페이지를 파싱해서 데이터프레임으로 가져오기 (0) | 2024.05.06 |
MS그림판으로 자동으로 그림그리기 (0) | 2024.05.06 |