Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

"、" の許容とコンテキストの両立 #4

Open
azu opened this issue Feb 18, 2016 · 0 comments
Open

"、" の許容とコンテキストの両立 #4

azu opened this issue Feb 18, 2016 · 0 comments

Comments

@azu
Copy link
Member

azu commented Feb 18, 2016

#2 #3 で"、"をデフォルトでは許容するように変更した。

この変更により、本来はエラーとしていたものも許容されるケースがある。
strict: trueの場合は本来のエラーを再現した挙動を維持した状態となっている。

"、"がコンテキストにより意味合いが変わるため、それを補足する方法について考えるIssue

ものすごく安直な実装だと、を間隔値(+1)することで

「右がiPhone、左がAndroidです。」

"が" と "が" で間隔値は2になるのでパスできます。(デフォルトでは間隔値2以上はセーフとゆるめ)

36a0498 という感じで

彼女は困り切った表情で、小声で尋ねた。

この変更の仕方だと上記のような"、"の使い方も単純に間隔値が増えるのでスルーされてしまいます。("で"の間隔値が2となる)

なので、仰るとおり助詞以外の単語も含めたポイント性にしてデフォルト値をもう少しあげるなりする必要が出てきそうな気はします。(今は助詞同士のみを見てる)


最初にあげた2つの例は、

意味的に対になるものが並立している場合
文が複文になっていて、同じデ格の格助詞がそれぞれ別の動詞にかかっている場合

という、それぞれ違う許容の仕方になっているんですよね…。逆に言うと、

同じ格助詞が一つの動詞に複数かかっていないか、またはかかっていても意味的に並立している場合

をチェックできるとよいのですが、そうすると単語(文節)の依存関係(係り受け)解析+格の意味解析が必要になるので、kuromojiではできなさそうです。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant