1 |
dpavlin |
21 |
Pretra¾ivaè za hrvatski |
2 |
|
|
|
3 |
|
|
Dobrica Pavlinusic <dpavlin@rot13.org> 2002-01-24 |
4 |
|
|
|
5 |
|
|
Cilj: razviti pretra¾ivaè naslova zakona u narodnim novinama |
6 |
|
|
|
7 |
|
|
Zeljena svojsta: |
8 |
|
|
- ne kori¹tenje na¹ih slova (konverzija na¹ih slova prije indeksiranja u |
9 |
|
|
czs, tako da kuæa i kuca upisani u pretra¾ivaè vraæaju kuæa) |
10 |
|
|
- moguænost upisivanja rijeèi u naslovu u bilo kojem obliku (dakle, "Zakon |
11 |
|
|
o gradnji kuæa" æe biti pronaðen i za upit "zakon kuæa" i "kuæa zakon" -- |
12 |
|
|
to zapravo onemoguæava kori¹tenje jednostavnog like upita u bazu na text |
13 |
|
|
polje koje ima naslov) |
14 |
|
|
- kori¹tenje hrvatskog suffix file-a sa |
15 |
|
|
http://cvs.linux.hr/spell/, http://cvs.linux.hr/spell/ispell/croatian.aff |
16 |
|
|
- jezik implementacije perl |
17 |
|
|
- kori¹tenje relacijske baze podataka za spremanje podataka (PostgreSQL) |
18 |
|
|
- moguænost naprednog pretra¾ivanja kori¹tenjemm and, or, not, + operatora |
19 |
|
|
(kori¹tenjem Text::Query modula) |
20 |
|
|
|
21 |
|
|
|
22 |
|
|
Implementacija: |
23 |
|
|
|
24 |
|
|
tablica nn: |
25 |
|
|
id - unique serial number |
26 |
|
|
title |
27 |
|
|
title_czs -- posebna verzija naslova bez na¹ih slova i specijanih |
28 |
|
|
znakova po kojoj se radi SQL like |
29 |
|
|
url... |
30 |
|
|
|
31 |
|
|
ToDo: |
32 |
|
|
- normalizirati rijeèi u polju title_czs kori¹tenjem affix file-a |
33 |
|
|
|