From d2bb930b581060a700498a7f342f85377e314b17 Mon Sep 17 00:00:00 2001 From: Minchul Lee Date: Tue, 29 Oct 2024 22:24:58 +0900 Subject: [PATCH 1/4] Update README.md --- README.md | 28 ++++++++++++++++++++++++---- 1 file changed, 24 insertions(+), 4 deletions(-) diff --git a/README.md b/README.md index 466496a..03bc6f6 100644 --- a/README.md +++ b/README.md @@ -456,6 +456,26 @@ kiwi.tokenize('대학생선교회에서') [Token(form='예쁘', tag='VA', start=0, len=2), Token(form='ㄴ데', tag='EF', start=1, len=2)] # 받침 ᆫ이 호환용 자모인 ㄴ으로 변환되어 출력됨 + +# 0.20.0버전에서는 사이시옷 분석을 수행하는 옵션이 추가되었습니다. + +# 사전에 등재되어 있지 않은 사이시옷이 들어간 합성명사는 +# 다음과 같이 잘못 분석되는 경우가 많습니다. +>>> kiwi.tokenize('시곗바늘') +[Token(form='시곗', tag='NNG', start=0, len=2), + Token(form='바늘', tag='NNG', start=2, len=2)] + +# saisiot=True 옵션을 주면 사이시옷을 형태소로 간주하여 +# 다음과 같이 분리해줍니다. +>>> kiwi.tokenize('시곗바늘', saisiot=True) +[Token(form='시계', tag='NNG', start=0, len=2), + Token(form='ᆺ', tag='Z_SIOT', start=1, len=1), + Token(form='바늘', tag='NNG', start=2, len=2)] + +# saisiot=False 옵션을 주면 사이시옷이 들어간 합성 명사 전체를 +# 하나의 형태소로 합쳐서 출력합니다. +>>> kiwi.tokenize('시곗바늘', saisiot=False) +[Token(form='시곗바늘', tag='NNG', start=0, len=4)] ``` ## 시작하기 @@ -658,8 +678,6 @@ score를 `-3` 이하의 값으로 설정하는걸 권장합니다. # (형태) \t (원형태소/품사태그 + 원형태소/품사태그 + ...) \t (점수) # * (점수)는 생략시 0으로 처리됩니다. 사겼다 사귀/VV + 었/EP + 다/EF -1.0 -# -# 현재는 공백을 포함하는 다어절 형태를 등록할 수 없습니다. ``` 사전 파일을 성공적으로 읽어들이면, 사전을 통해 새로 추가된 형태소의 개수를 반환합니다. @@ -683,7 +701,7 @@ Kiwi.template(format_str, cache=True) ```
-tokenize(text, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, blocklist=None) +tokenize(text, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None) 입력된 `text`를 형태소 분석하여 그 결과를 간단하게 반환합니다. 분석결과는 다음과 같이 `Token`의 리스트 형태로 반환됩니다. @@ -709,7 +727,7 @@ Kiwi.template(format_str, cache=True)
-analyze(text, top_n=1, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, blocklist=None) +analyze(text, top_n=1, match_option=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None) 입력된 `text`를 형태소 분석하여 그 결과를 반환합니다. 총 top_n개의 결과를 자세하게 출력합니다. 반환값은 다음과 같이 구성됩니다. @@ -774,6 +792,7 @@ SystemError: returned a result with an error set z_coda=True, split_complex=False, compatible_jamo=False, + saisiot=None, return_tokens=False ) 입력 텍스트를 문장 단위로 분할하여 반환합니다. @@ -1047,6 +1066,7 @@ ValueError: cannot specify format specifier for Kiwi Token W_SERIAL일련번호(전화번호, 통장번호, IP주소 등)* W_EMOJI이모지* 기타Z_CODA덧붙은 받침* +Z_SIOT사이시옷* USER0~4사용자 정의 태그* From c0975fd7068f98c10050d20053ced9682ee92a93 Mon Sep 17 00:00:00 2001 From: Minchul Lee Date: Tue, 29 Oct 2024 22:27:26 +0900 Subject: [PATCH 2/4] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index 03bc6f6..ce07351 100644 --- a/README.md +++ b/README.md @@ -1065,7 +1065,7 @@ ValueError: cannot specify format specifier for Kiwi Token W_MENTION멘션(@abcd)* W_SERIAL일련번호(전화번호, 통장번호, IP주소 등)* W_EMOJI이모지* -기타Z_CODA덧붙은 받침* +기타Z_CODA덧붙은 받침* Z_SIOT사이시옷* USER0~4사용자 정의 태그* From 7c59093725fa42eef6f3568711c40604736de16a Mon Sep 17 00:00:00 2001 From: Minchul Lee Date: Tue, 29 Oct 2024 22:28:05 +0900 Subject: [PATCH 3/4] Update README.md --- README.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/README.md b/README.md index ce07351..b9b9832 100644 --- a/README.md +++ b/README.md @@ -459,7 +459,7 @@ kiwi.tokenize('대학생선교회에서') # 0.20.0버전에서는 사이시옷 분석을 수행하는 옵션이 추가되었습니다. -# 사전에 등재되어 있지 않은 사이시옷이 들어간 합성명사는 +# 사전에 등재되어 있지 않은, 사이시옷이 들어간 합성명사는 # 다음과 같이 잘못 분석되는 경우가 많습니다. >>> kiwi.tokenize('시곗바늘') [Token(form='시곗', tag='NNG', start=0, len=2), From f8c0f1f627866149eb85b9fd26a4387e86ea507b Mon Sep 17 00:00:00 2001 From: Minchul Lee Date: Tue, 29 Oct 2024 22:29:59 +0900 Subject: [PATCH 4/4] Update README.md --- README.md | 6 +++--- 1 file changed, 3 insertions(+), 3 deletions(-) diff --git a/README.md b/README.md index b9b9832..3a05a7e 100644 --- a/README.md +++ b/README.md @@ -691,9 +691,9 @@ kiwi을 생성하고, 사용자 사전에 단어를 추가하는 작업이 완 형태소 분석, 문장 분리, 띄어쓰기 교정, 문장 복원 등의 작업을 수행할 수 있습니다. ```python -Kiwi.tokenize(text, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, blocklist=None) -Kiwi.analyze(text, top_n, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, blocklist=None) -Kiwi.split_into_sents(text, match_options=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, blocklist=None, return_tokens=False) +Kiwi.tokenize(text, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None) +Kiwi.analyze(text, top_n, match_option, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None) +Kiwi.split_into_sents(text, match_options=Match.ALL, normalize_coda=False, z_coda=True, split_complex=False, compatible_jamo=False, saisiot=None, blocklist=None, return_tokens=False) Kiwi.glue(text_chunks, insert_new_lines=None, return_space_insertions=False) Kiwi.space(text, reset_whitespace=False) Kiwi.join(morphs, lm_search=True)