THÀNH PHẦN CỦA LUCENE API
Trong thư
viện Lucene gồm 4 gói thư viện chính :
1.
org.apache.lucene.document
2.
org.apache.lucene.analysis
3.
org.apache.lucene.index
4.
org.apache.lucene.search
và chia làm 2
thành phần chính :
1.
Các thành phần chính tạo chỉ mục : Hỗ trợ các chức năng xử lí , tạo chỉ mục
từ file văn bản đầu vào và kết quả cuối
cùng là tập các chỉ mục phục vụ cho mục đích tìm kiếm.Thành phần này chỉ xử lí
các kí tự, hay text thuần sau khi tách nội dung.Và dựa vào trường thông tin của
dữ liệu mà từ đó cho phép thiết lập hệ số cho từng trường thông tin để tối ưu
hóa việc tìm kiếm.Bao gồm các chức năng cơ bản sau :
·
Directory: cho phép định nghĩa vùng nhớ, xác
định nơi lưu trữ trên bộ nhớ ngoài và bộ nhớ trên RAM trong quá trình tạo chỉ
mục
·
Document và Field: định nghĩa tài liệu và các
trường thông tin của tài liệu sử dụng cho lập chỉ mục, nó cũng sử dụng cho việc
lấy kết quả trả về cho thành phần Tìm kiếm
·
Analyzer: thực hiện chức năng xử lý và tách văn
bản để lấy nội dung, chuẩn hóa, loại bỏ mục từ không cần thiết,… để chuẩn bị
cho việc lập chỉ mục
·
IndexWriter: là phần chính trong thành phần Tạo
chỉ mục, nó thực hiện việc tạo mới hoặc mở chỉ mục, sau đó thực hiện thêm mới
hoặc cập nhật nội dung của chỉ mục
2.
Các thành phần chính tìm kiếm :
·
Term:
Term là một đơn vị cơ bản của tìm kiếm,
tương tự như thành phần Field, Term cũng bao gồm tên và giá trị tương ứng.
·
Query:
bao gồm nhiều loại truy vấn khác nhau, nó chứa nhiều phương thức, nhưng hầu hết
đều quan tâm đến việc thiết lập chỉ số Boost, cho phép Lucene hiểu truy vấn con
nào là quan trọng hơn.
·
IndexSearcher:
cho phép tìm kiếm trên tập chỉ mục do IndexWriter tạo ra, đây là thành phần chỉ
thực hiện nhiệm vụ mở tập chỉ mục, không cho phép chỉnh sửa hay thay đổi. Có
nhiều phương thức tìm kiếm, một trong số đó là lớp thành phần thực thi
Searcher, với cách đơn giản là cung cấp một Querytruy vấn, số lượng các liên
kết cần trả về, và kết quả trả về sẽ là tập các đối tượng TopDoc.
·
TopDoc:
là một lớp đơn giản, dùng cho việc chứa các thứ hạng cao nhất của N tài liệu có
liên quan đến truy vấn. Với mỗi đối tượng trong danh sách này sẽ cho một docID
dùng để liên kết đến tài liệu nhận về.
Không có nhận xét nào:
Đăng nhận xét