Skip to content

Commit

Permalink
Update documentation
Browse files Browse the repository at this point in the history
  • Loading branch information
bab2min committed Oct 29, 2024
1 parent df4fb7f commit 08d9ce2
Show file tree
Hide file tree
Showing 3 changed files with 28 additions and 3 deletions.
3 changes: 2 additions & 1 deletion document/document_header.html
Original file line number Diff line number Diff line change
Expand Up @@ -10,8 +10,9 @@
<a class="homelink" rel="home" title="kiwipiepy Home" href="/kiwipiepy" style="display:block; font-size:2em; font-weight:bold; color:#555; padding-bottom:.5em; border-bottom:1px solid silver;"> <img src="/kiwipiepy/logo.png" alt="" style="height:1.5em;"> kiwipiepy </a>
<!--a id='lang-en' href="../en/index.html">English</a--> <a id='lang-kr' href="../kr/index.html">한국어</a>
<div id="version-link">
<span>v0.19.1</span>
<span>v0.20.0</span>
<ul>
<li><a href='/kiwipiepy/v0.20.0/kr'>v0.20.0</a></li>
<li><a href='/kiwipiepy/v0.19.1/kr'>v0.19.1</a></li>
<li><a href='/kiwipiepy/v0.19.0/kr'>v0.19.0</a></li>
<li><a href='/kiwipiepy/v0.18.1/kr'>v0.18.1</a></li>
Expand Down
21 changes: 20 additions & 1 deletion kiwipiepy/_wrap.py
Original file line number Diff line number Diff line change
Expand Up @@ -956,7 +956,7 @@ def analyze(self,
이 인자는 `Kiwi.tokenize`에서와 동일한 역할을 수행합니다.
compatible_jamo: bool
이 인자는 `Kiwi.tokenize`에서와 동일한 역할을 수행합니다.
saistiot: bool
saisiot: bool
이 인자는 `Kiwi.tokenize`에서와 동일한 역할을 수행합니다.
blocklist: Union[Iterable[str], MorphemeSet]
이 인자는 `Kiwi.tokenize`에서와 동일한 역할을 수행합니다.
Expand Down Expand Up @@ -1407,6 +1407,25 @@ def tokenize(self,
Token(form='었', tag='EP', start=23, len=1),
Token(form='다', tag='EF', start=24, len=1),
Token(form='.', tag='SF', start=25, len=1)]
# saisiot 인자를 통해 사이시옷이 포함된 합성명사를 분리하거나 결합하여 출력할 수 있습니다.
# 사전에 등재되어 있지 않은 사이시옷이 들어간 합성명사는
# 다음과 같이 잘못 분석되는 경우가 많습니다.
>>> kiwi.tokenize('시곗바늘')
[Token(form='시곗', tag='NNG', start=0, len=2),
Token(form='바늘', tag='NNG', start=2, len=2)]
# saisiot=True 옵션을 주면 사이시옷을 형태소로 간주하여
# 다음과 같이 분리해줍니다.
>>> kiwi.tokenize('시곗바늘', saisiot=True)
[Token(form='시계', tag='NNG', start=0, len=2),
Token(form='ᆺ', tag='Z_SIOT', start=1, len=1),
Token(form='바늘', tag='NNG', start=2, len=2)]
# saisiot=False 옵션을 주면 사이시옷이 들어간 합성 명사 전체를
# 하나의 형태소로 합쳐서 출력합니다.
>>> kiwi.tokenize('시곗바늘', saisiot=False)
[Token(form='시곗바늘', tag='NNG', start=0, len=4)]
```
'''
return self._tokenize(text, match_options, normalize_coda,
Expand Down
7 changes: 6 additions & 1 deletion kiwipiepy/documentation.md
Original file line number Diff line number Diff line change
Expand Up @@ -624,7 +624,12 @@ Python 모듈 관련 오류는 https://github.com/bab2min/kiwipiepy/issues, 형

역사
----
* 0.19.0 (2024-10-19)
* 0.20.0 (2024-10-29)
* Kiwi 0.20.0의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.20.0 )이 반영되었습니다.
* 사이시옷을 위한 품사 태그인 Z_SIOT 추가
* 사이시옷이 포함된 합성명사를 분할하거나, 사이시옷 앞뒤의 명사를 결합하여 출력하는 옵션 추가

* 0.19.1 (2024-10-19)
* Kiwi 0.19.1의 기능들(https://github.com/bab2min/Kiwi/releases/tag/v0.19.1 )이 반영되었습니다.
* 앞쪽의 특수 문자가 형태소와 잘못 결합하여 분석되는 버그 수정
* 오타 교정을 켠 상태에서 PretokenizedSpan 혹은 blocklist를 사용할때 오류가 발생하는 버그 수정
Expand Down

0 comments on commit 08d9ce2

Please sign in to comment.