WO2017191877A1 - Compression device and method for managing provenance - Google Patents
Compression device and method for managing provenance Download PDFInfo
- Publication number
- WO2017191877A1 WO2017191877A1 PCT/KR2016/013271 KR2016013271W WO2017191877A1 WO 2017191877 A1 WO2017191877 A1 WO 2017191877A1 KR 2016013271 W KR2016013271 W KR 2016013271W WO 2017191877 A1 WO2017191877 A1 WO 2017191877A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- data
- pattern
- graph
- encoding
- rdf
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/1805—Append-only file systems, e.g. using logs or journals to store data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Definitions
- the present invention relates to a compression apparatus and method for managing management, and more particularly, to a compression apparatus and method for managing management for RDF (Resource Description Framework) documents.
- RDF Resource Description Framework
- the Semantic Web was first established as a technical standard by the World Wide Web Consortium (W3C), and represented in terms of ontology that machines can process information about resources and their relationships and semantics in a distributed environment. It is a framework that allows automated machines to handle this.
- W3C World Wide Web Consortium
- RDF is a standard for expressing information of resources on the web. It supports common rules about the syntax, syntax, and structure of heterogeneous data.
- RDF is represented graphically and consists of triples: subjects, predicates, and objects.
- LOD Link Open Data
- the source information of the RDF data that is, information about where the RDF data came from, who created it, and how it was changed.
- Provenance has emerged as metadata for managing the source information of such RDF data and the history information of the usage history data.
- Provenance data (hereinafter referred to as 'provenance data') is metadata representing the source information of the data and the history of use.
- the PROV model was proposed by the W3C.
- the PROV model consists of nodes, which are entities, activities, agents, and properties.
- the object represents an RDF document that is represented on the semantic web. Activities represent various activities, such as changing and deleting documents on the semantic web. Finally, an agent represents an individual or organization that performs an activity.
- Each of these nodes is organically connected and can be used to improve the compatibility of semantic web data when managing the provenance data using the standard PROV model, and can be searched through the standard query language.
- Provenance data is composed of graphs to represent historical information. Such graphs repeatedly represent duplicate data.
- Provenence compression technique based on the flow of Provenance is needed.
- the existing redundant data is managed by compressing the overlapped portions.
- there is no compression technique applying the standard provenence model since it is compressed using general processing data, it is difficult to apply it to the provisional data composed of RDF.
- no compression scheme using the standard model has been proposed. It manages the provisioning data but not the original RDF document.
- the provisional data can be tens of times larger than the original data, and the size of the provisional data is represented on the semantic web as a large amount of data.
- Provenance data is managed appropriately for the management techniques used, but it needs to be managed using a standard model to be used by various users.
- the existing provision management technique does not manage the original document separately and does not consider the RDF data.
- existing RDF data compression techniques do not consider the change history.
- an aspect of the present invention is to provide a compression scheme for efficiently managing a large amount of RDF provisional data.
- Another technical problem to be solved by the present invention is to reduce the storage capacity of the RDF provisional data.
- a compression apparatus for managing provenance including: a probability generation unit configured to receive history information and a final document, and to generate a data proof using a provisioning model; A pre-encoding unit connected to the pre-encoding unit, pre-encoding the string data of the data probe into numeric string data, storing the data in a pre-encoding table, and outputting the numeric string dataverification; Receives the column data provisionance, encodes the subject and object together into a numeric string, encodes only the predicates into a numeric string, and stores them in the final RDF data encoding table, and encodes the data using the data stored in the final RDF data encoding table.
- a final RDF compression unit for storing a data pattern compression graph for a final document using the values stored in the graph pattern variable table, and connected to the pre-encoding unit, and receives the numeric string data conference.
- the provisioning model may include an object node, an agent node, an activity node, and a metadata node having information about a time and a source.
- the pre-encoding unit encodes agent nodes, metadata nodes, and object nodes to store encoding values in a data table, encodes activity nodes to store encoding values in an activity table, and encodes attributes to store encoding values in a predicate table. It is desirable to.
- a compression method for managing provenance generating a data provision by using history information and a final document, and generating a string of string data of the data provision.
- Pre-encoding the data into a pre-encoding table and outputting the numeric string data prober; receiving the numeric string data prober, encoding the subject and object together with the numeric string, and encoding only the predicates into the numeric string separately.
- the provisioning model may include an object node, an agent node, an activity node, and a metadata node having information about a time and a source.
- this example uses an extended PROV model that extends the standard PRVO model to represent the provenance data.
- the extended PROV model handles the final RDF document to be changed or added, making history tracking easier.
- this example manages the final RDF document, unlike the existing PROV model, the original RDF document is compressed through the original RDF compression to prevent the storage space of the final RDF document from occupying much.
- the redundant portion of the data activity node in the PROV model is compressed into a subgraph to store the compressed data in consideration of the usage history of the data.
- FIG. 1 is a block diagram of a compression apparatus for management of prosperity according to an embodiment of the present invention.
- FIG. 2 is a flowchart illustrating an operation of a compression apparatus for management of maintenance according to an embodiment of the present invention.
- FIG. 3 shows an example of an extended PROV model of a compression device for provisioning management according to an embodiment of the present invention.
- 4A is an example of data provisionance generated according to a conventional PROV model.
- 4B is an example of data provisioning generated according to an extended PROV model of a compression apparatus for management of provisioning according to an embodiment of the present invention.
- FIG. 5 is an example of data provisionance input to a pre-encoding unit of a compression device for provisioning management according to an embodiment of the present invention.
- FIG. 6 is an example of numeric string data provisioning generated by a pre-encoding operation of a compression device for provisioning management according to an embodiment of the present invention.
- FIG. 7 is an example of an encoding probence graph generated according to an embodiment of the present invention.
- FIG. 8 is an example of a graph pattern extracted from a final RDF document in accordance with one embodiment of the present invention.
- 9A and 9B are repetitive graph patterns extracted from the graph pattern of FIG. 8.
- FIG. 10 is a data pattern compression graph for the final RDF document in accordance with one embodiment of the present invention.
- FIG. 11 illustrates a process of extracting a subgraph from numeric data data provisioning in accordance with an embodiment of the present invention.
- FIG. 13 is an example of a pattern-compressed provisionality graph according to an embodiment of the present invention.
- Provenance generation unit 20 Provenance compression unit
- a probe data compression method based on a probe model is used to compress the probe data.
- the Provenance data compression method extends an existing PROV model to represent RDF data.
- the extended PROV model since the time is indicated in the extended PROV model, it can be confirmed that the time has changed. Therefore, by using the extended PROV model, the data is compressed considering the historical information. In addition, it represents the proof data over time, so you can see who modified what documents and when.
- the original document Since most of the proof data consists of strings, it is converted into numeric data through dictionary encoding. Since the original document takes up a lot of space because it manages the original RDF document to be changed in the extended PROV model, the original RDF compression compresses the size of each original RDF document.
- the probe version compression module extracts the patterns used in the same order based on the active nodes of the PROV model and compresses the probe data.
- a compression device for managing probability refers to history information and final information.
- Provenance generation unit 10 for receiving a document a probe unit 20 connected to the probe generation unit 10 and the storage unit 30 connected to the probe version 20 ).
- Probability generation unit 10 generates the relevant data, that is, the probability of the final document (hereinafter, the 'proverance of the corresponding data' is referred to as 'data provision') by using the historical information and the final document. do.
- Probability compression unit 20 is connected to the pre-encoding unit 21, the pre-encoding unit 21 for encoding the generated data of the conversion of the string into the numeric string, the data probe encoded in the numeric string In the following (hereinafter referred to as 'numeric data provision'), it is connected to the final RDF compression unit 22 for compressing the final document, and the pre-encoding unit 21, and the history information is obtained from the numeric data provision.
- the provision pattern compression part 23 which extracts and compresses is provided.
- the storage unit 30 is a storage medium that stores data and information necessary for the operation of the provisioning compression device, data and information generated during the operation, and the like.
- both the historical information and the final document have an RDF data structure in RDF format, and the provisioning is also expressed in RDF format.
- documents in RED format are represented as graphs, so RDF documents and provisions such as final RDF documents or original RDF documents are also represented as graphs.
- the pre-encoding unit 21 encodes data of the data proberence, which is string data, from string data to numeric data through a pre-encoding operation. do.
- the final RDF compression unit 22 compresses the final document to compress the final document on the semantic web (that is, the final document in the form of RDF (final RDF document)). At this time, unlike the existing PROV model manages the final document.
- the final document refers to a document on the semantic web.
- the final RDF compression unit 22 performs the encoding operation as in the pre-encoding unit 21, but encodes the final document using a method different from the encoding method used in the pre-encoding unit 10.
- the subject S and the object O are encoded together, but the predicate P is separately encoded.
- the same pattern is searched and the final document is compressed using the searched same pattern.
- the same pattern is regarded as the same pattern if the subject (S) and the object (O) are different, but the use of the predicate (P) is the same.
- the probe pattern compression unit 23 extracts a subgraph based on the activity of the PROV model from the probe graph. After the subgraph is extracted, if a predetermined numerical value or more comes out according to the frequency of the extracted subgraph, the final graph is changed through the patterned information.
- the PROV model is a standard model proposed by the W3C to manage provenance data.
- the PROV model is not compatible when the method of managing the provention data in the semantic web is different, and most of the semantic web data can be expressed as a standard standard PROV model.
- the Provenance Compression method using the PROV model is used to represent the flow of Provenance.
- the PROV model represents a data flow as a model for managing the provenance data.
- Existing PROV models are easy to represent existing provenance data, but are insufficient to represent RDF documents because there are no nodes representing RDF documents on the web (ie, documents with RDF data structures). It is also created over time, but does not display accurate information about when it was changed.
- this example extends an existing PROV model and adds a part representing metadata. This process, unlike the existing model, reveals the changed parts and the changed time of the RDF document on the Semantic Web.
- the proofer generation unit 10 uses the extended PROV model shown in FIG. 3.
- the extended PROV model consists of nodes (N11-N13) and attributes (used, wasGeneratedBy, wasDerivedFrom, wasInformedBy, wasAttributedTo, ActedOneBehalfOf, wasAssociatedWith, time, source) that consist of already described entities, activities, and agents. It consists of adding the node N14 of Meta Data from the existing PROV model with), which causes when the RDF document is transformed and what RDF is generated by the data probe generated by the extended PROV model. Information about whether the document has been modified is further represented.
- An agent is made up of individuals and organizations and represents the person or organization that performed the activity.
- the metadata consists of time and source and identifies when the activity was executed and what RDF documents were modified.
- An object represents an RDF document, and an activity represents what you have done to that RDF document.
- the 'used' attribute represents, in the graph, the object required for the execution of the object N11 by connecting to the object in the activity.
- the ‘wasGeneratedBy’ branch (i.e., attribute) is the concatenation of an activity on an object, and the object that results from the activity (N12) represents that activity.
- the 'wasDerivedFrom' property is a property that connects objects from an object.
- the 'wasInformedBy' attribute is an attribute representing the exchange of an object with one object created by one activity
- the 'wasAttributedTo' attribute is an agent's influence on the object.
- the 'time' attribute connects the time of the activity with the metadata so that it knows when the activity was done.
- the 'source' attribute is an attribute that links the source of the metadata with the activity, and refers to the RDF document in which the activity is performed.
- Table 1 describes the definitions for the elements used in the extended PROV model shown in FIG. 3.
- An object means an RDF document having an RDF data structure as a document.
- An activity consists of four elements: insert, delete, change, and versioning.
- Metadata is generated when the actual activity is run and represents the time or document (ie source) to be modified.
- time means the time when the page is modified or added, and when the source is changed, the changed content or the new page. When added, it means the newly added contents.
- a new 'Document F' is created by inserting 'Document C' and 'Document D' into a document (not shown), and the generated 'Document F' is named 'Jieun'. Created by an individual named
- a new document X is generated by inserting certain content into the document F by an individual 'line drawing'.
- FIG. 4B illustrates data provisionance generated using the extended PROV model according to the present example when 'Document F' and 'Document X' are generated through the same process as that of FIG. 4A.
- a new 'document F' is generated by inserting 'document C' and 'document D' into a document (not shown), and the generated 'document F' 'Document F' was created on September 02, 2015, due to metadata for time (M11) and metadata for source (M12), indicating that RDF data was added. Can be.
- new document 'X' is created by adding the corresponding RDF data by individual 'Line Art' on September 03, 2015, like metadata (M21, M22) to newly generated 'document F'. .
- the proofer generation unit 10 further adds a metadata node indicating a time and a source to generate a data probe for the document (or data) to generate the probe compression unit 20. ) To be applied (S10).
- data provisionance consists of string data that is tens of times larger than the original data.
- the pre-encoding unit 21 changes the string data of the data probability to numeric data (S20).
- the pre-encoder 21 analyzes the inputted proof data to encode each node and branches.
- the number of activity nodes and attributes are smaller than the number of other nodes, and since the compression is based on the activity node when compressing the provenance pattern, the value encoded by encoding the agent node, metadata node, and object node
- the encoding values are stored in a total of three tables by dividing the data table that stores the data table, the activity table that stores the encoded values of the activity nodes, and the predicate table that stores the encoded values of the attributes.
- These data tables, activity data, and predicate tables may be stored in storage 30 or in pre-encoding 21.
- the input proof data is analyzed and the data is encoded through text encoding.
- Text encoding is divided into three encoding schemes.
- the text encoding is encoded in the input order.
- the text is analyzed to check whether there is already encoded data in the encoding table. If there is no encoded data after checking, the data for nodes and attributes corresponding to the predicate table, the activity table, and the data table are respectively encoded and stored.
- a new 'Document A' is generated by inserting a DF document corresponding to the metadata M31 into an existing 'Document B'.
- the pre-encoding unit 21 searches for the pre-encoding table stored in the storage unit 30.
- Table 2 is an example of a pre-encoding table stored in the storage unit 30. If document A is encoded, the data is first checked in the pre-encoding table, and a new ID is assigned if there is no data. When encoding with a new ID,
- the encoding amount of the provisional data is reduced by encoding the character string into a number through the text encoding in the pre-encoding section 21.
- 'Document B' is encoded at 1 and '2015.09.01.' Is encoded at # 2.
- the ID of the input document A becomes 3 by adding 2 to 1, the last ID of the data table.
- the ID is assigned to 2 because the existing change is 1 for the insert.
- the target corresponding to each corresponding table (that is, the data table, the activity table, and the predicate table) is stored by sequentially increasing the identification number (ID) by '1'.
- Information about object nodes, agent nodes, and metadata nodes are stored in the data table, information about activity nodes is stored in the activity table, and attribute information is stored in the predicate table.
- Pre-encoded data is reflected in graphs and encoding.
- the data provisionance generated by the extended PROV model also manages the RDF data to be changed.
- RDF data since the RDF data is composed of numerous triples, it takes up a lot of capacity. Accordingly, if the RDF data is large, it takes up a lot of storage space and compresses and stores it. Also, RDF data generally has fewer predicates than subjects and objects.
- the RDF graph having the same predicate pattern based on the predicate in the final RDF data is patterned.
- the variables included in the pattern are created and managed by creating a variable table in the storage unit 30, and converts each final RDF data into the created pattern and stores the compressed data.
- the final RDF compression unit 22 includes an RDF encoding step S31 consisting of an RDF data segmentation step S311 and a text encoding step S312, a pattern extraction step S321, and a final document pattern compression step (FIG. 2).
- a final RDF compression step S20 having an RDF pattern compression step S32 consisting of S322 is performed.
- a final document ie, a final RDF document
- the source points to in the metadata, which is the document on the semantic web.
- the string data is changed into numeric data through the RDF data analysis step S311.
- This conversion into numeric data is performed in a manner different from the encoding scheme performed in the pre-encoding section 21.
- the pre-encoding unit 21 encodes the data sequentially in the input order
- the final RDF compression unit 22 encodes the subject and the object in the same number string and encodes the predicate separately in the numeric string.
- the final encoded RDF document is compressed via RDF pattern compression.
- the RDF pattern compression when the same predicate is used, the pattern is compressed and stored in the storage unit 30.
- the final RDF compression unit 22 searches for the corresponding encoding ID in the final RDF data encoding table stored in the storage unit 30. If the corresponding encoding ID does not exist in the final RDF data encoding table, encoding is performed by adding 1 from the last ID.
- the encoding of the final RDF compression unit 22 is encoded together with the subject and the object, and only the predicate is encoded, the verbs are encoded in the order in which they are entered, and the subject and the object are encoded together.
- [Table 3] shows an example of the final RDF data encoding table generated through the operation of the RDF data analysis step of the final RDF compression unit 21.
- the elements (A, B, G, C, O, X, P, J, Q, S, H, K, V) described in the string part of the subclass 'subject, object' part are the final RDF.
- Elements (D, F, G, Q, W, S) that are words (i.e., nouns) (e.g., articles, Kim, Young-Chul, etc.) used as subjects or objects in a document Are verbs that are used as predicates in the final RDF document (eg, submit, compose, etc.), but these nouns and verbs are shown alphabetically for city convenience.
- the final RDF document lists a total of 14 different subjects or objects (A, B, G, C, O, X, P, J, Q, S, H, K, V). It can be seen that a total of eight verbs are described.
- an ID is assigned only once even when there is a large amount of repeated data. For example, even though the predicates 'D' and 'F' are repeatedly extracted, the predicate 'D' is assigned an ID having a value of 1 and the 'F' is assigned an ID of a value of '2'.
- the final RDF compression unit 22 proceeds to the text encoding step S312, and a verification graph using the encoded data (that is, encoding pro- gram). Rebuild the Verification Graph.
- FIG. 7 An example of an encoding compliance graph is shown in FIG. As is generally known, in FIG. 7, the value of each node is the value of the corresponding ID given to the 'subject, object' part, and the direction of the arrow connected between the two nodes is determined according to whether the string is given or the object, The number listed above the arrow is the value of the corresponding ID given in the 'predicate' part.
- RDF data is characterized by having fewer verbs than the subject and object and having the same pattern of verbs.
- the same pattern means that only the variables of the subject and the object are different and the order of the verbs is the same.
- the same pattern is used to extract the pattern using the subject and the object as variables.
- the final RDF compression unit 22 extracts the graph pattern repeatedly displayed by using the encoding provenance graph in the pattern extraction step S321, and stores the graph pattern having the number of times that the number of times repeatedly being used is greater than or equal to the set number. In the pattern storage unit.
- FIG. 8 as an example, a graph pattern that can be extracted from the final RDF document is shown.
- verb pattern 1 pattern1 that is used repeatedly three times is used by repeating verb 1 and verb 2
- verb pattern 4 and verb 5 that are repeated twice are used.
- pattern1, pattern2 two repetitive graph patterns are extracted as shown in FIGS. 9A and 9B, and the shape and the number of repetitions of the extracted graph patterns are as shown in Table 4 below.
- the table is stored in the storage unit 30.
- Table 5 is an example of a graph pattern variable table for graph pattern 1 (pattern1) shown in FIG. 9A.
- the information (that is, the subject or the object) entering the node (? X) in the order of finding the graph pattern 1 is the information having the identification numbers (ID) 1, 3, and 9 (Table 3).
- ID the identification numbers
- the information contained in the node (? Y) is information having identification numbers (ID) 1, 2, 3 (A, B, G in Table 3)
- the node ( information contained in? z is information having identification numbers (ID) 2, 12, and 8 (in the case of Table 3, B, H, and P).
- the final RDF compression unit 22 proceeds to the final document pattern compression step S322 and compresses the data pattern for the final RDF document by using the repeated graph patterns pattern1 and pattern2 extracted. Generate a graph (see FIG. 10).
- Provenance for the final RDF document is compressed and stored as a data compression graph.
- the final RDF compression unit 22 Compresses and stores the graph of the final RDF document by storing the changed node based on the extracted repeating graph pattern (see FIG. 10).
- the name of the graph pattern is determined based on the table shown in [Table 5], the name is determined in order with the name of the graph pattern.
- the pattern for processing the provenance data is often repeated the same.
- the pattern of document usage shows similar or identical usage patterns for various documents, such as creating a document and then changing the parts that users need to use. Therefore, the provision pattern compression unit 23 of the present example extracts and compresses and stores the repeated use pattern using the same.
- the compression operation of the provisional pattern compression section 23 is compressed in substantially the same manner as the final RDF compression section 22, except that only the object to be processed is different, but when the compression Rules are different.
- the final RDF compression unit 22 extracts the same pattern based on the predicate, but the provisional pattern compression unit 23 extracts the same pattern based on the active node.
- the provisional pattern compression unit 23 receives the numeric string data.
- a subgraph is generated based on the activity in the probever (S41).
- the provision pattern compression unit 23 stores the generated subgraph in the subgraph statistics table of the storage unit 30 and extracts the same subgraph repeatedly (S42).
- the probe pattern compression unit 23 compares the number of occurrences of the extracted subgraph with the set number of times, and if the number of occurrences is equal to or more than the set number of times, the corresponding subgraph is referred to as a reference pattern and compressed and stored.
- FIG. 11 illustrates a process of extracting a subgraph from numeric data data provisioning. As illustrated in FIG. 11, a subgraph is generated based on the activity data, and a subgraph is generated.
- a pattern not recently used ie, a pattern not used for a predetermined time
- the statistical data related to the subgraph is recorded in the subgraph statistics table of the form shown in [Table 6] stored in the storage unit 30.
- the number of times of each subgraph is managed by the subgraph statistics table.
- the number of times the subgraph appears is recorded in the subgraph statistics table. If the number of times indicated above is the set number or more, it is compressed into a reference pattern and stored in the storage unit 30. At this time, the set number of times is designated as a limit value and this value is changed according to the processing data. All subgraphs that can be extracted in FIG. 11 are counted in the subgraph statistics table.
- the provisional pattern compression unit 23 is stored after the pattern is compressed as shown in FIG. 13 (S43).
- Fig. 13 is a pattern compressed proof graph according to the present example.
- the repeated subgraph is stored as a reference pattern. It is generated as a reference pattern and is converted into string data and stored as shown in Table 7. The final result is stored as a node converted into a reference pattern to compress and store the graph of the provenance data.
- first reference pattern 2 (reference pattern 2-1) is associated with document A, document P, and document V
- second reference pattern 2 (reference pattern 2-2) is document K, document Y.
- document F are related.
- the final RDF document itself is processed by the final RDF compression unit 22, and the processing on the history information of the final RDF document is performed by the provisional pattern compression unit 23, so that the final RDF document and the history information are processed.
- the management operation of takes place separately.
- the extended PROV model handles the final RDF document to be changed or added, making history tracking easier.
- this example manages the final RDF document, unlike the existing PROV model, the original RDF document is compressed through the original RDF compression to prevent the storage space of the final RDF document from occupying much.
- the redundant portion of the data activity node in the PROV model is compressed into a subgraph to store the compressed data in consideration of the usage history of the data.
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
Abstract
The present invention relates to a compression device for managing provenance, the device comprising: a provenance generation unit which generates data provenance by receiving history information and a final document, and by using a provenance model; a pre-encoding unit which pre-encodes character string data of the data provenance into numeric string data, stores same in a pre-encoding table, and outputs numeric string data provenance; a final RDF compression unit which receives the numeric string data provenance, encodes a subject and an object together into a numeric string, encodes a predicate solely and separately into a numeric string, stores same in a final RDF data encoding table, generates an encoding provenance graph by using the data stored in the final RDF data encoding table, extracts repeating graph patterns by using the generated encoding provenance graph, stores the number of extracted graph pattern repetitions in a pattern statistics table, stores, in a graph pattern variable table, a subject or an object of each node of the extracted graph patterns according to the order in which the extracted graph patterns were found, and generates a data pattern compression graph for the final document by using the values stored in the graph pattern variable table; and a provenance pattern compression unit which receives the numeric string data provenance, generates a sub-graph having a repeating pattern with reference to activity data in the numeric string data provenance, stores number-of-times information of the sub-graph having a repeating pattern in a sub-graph statistics table, and if the sub-graph having a repeating pattern occurs a preset number of times or more, determines that the sub-graph having a repeating pattern is a reference pattern.
Description
본 발명은 프로버넌스(provenance) 관리를 위한 압축 장치 및 방법에 관한 것으로서, 더욱 상세하게는 RDF (Resource Description Framework) 문서에 대한 프로버넌스 관리를 위한 압축 장치 및 방법에 관한 것이다.The present invention relates to a compression apparatus and method for managing management, and more particularly, to a compression apparatus and method for managing management for RDF (Resource Description Framework) documents.
최근 컴퓨팅 기술 및 네트워크(network)의 발전과 더불어 인터넷(internet)을 통해 수 많은 사용자들은 데이터(data)를 급속도로 생산하고 공유하게 되었고 이를 효율적인 서비스로 제공하기 위한 다양한 연구들이 활발하게 진행되고 있다. Recently, with the development of computing technology and network, many users have been rapidly producing and sharing data through the internet, and various studies are being actively conducted to provide it as an efficient service.
웹(web)에서 정보량이 폭발적으로 증가됨에 따라 웹 문서를 자동적으로 인식하고 검색하기 위한 필요성이 대두되었다. As the amount of information exploded on the web, there is a need for automatically recognizing and searching web documents.
따라서, 컴퓨터(computer)가 문서의 의미를 이해하고 조작할 수 있는 차세대 웹 기술로 시맨틱 웹(semantic web)이 등장하였다. Accordingly, the semantic web has emerged as a next-generation web technology that enables a computer to understand and manipulate the meaning of a document.
시맨틱 웹은 처음 W3C(world wide web consortium)에서 기술 표준으로 제정하였으며 분산 환경에서 리소스(resource)에 대한 정보와 자원 사이의 관계 및 의미 정보를 기계가 처리 할 수 있는 온톨로지(ontology) 형태로 표현하고 이를 자동화된 기계가 처리하도록 하는 프레임워크(framework)이다. The Semantic Web was first established as a technical standard by the World Wide Web Consortium (W3C), and represented in terms of ontology that machines can process information about resources and their relationships and semantics in a distributed environment. It is a framework that allows automated machines to handle this.
현재 시맨틱 웹 기반의 연구가 활발히 연구되고 있으며 이를 지원하기 위해 W3C에서 RDF(Resource Description Framework) 데이터 구조가 연구되었다. Currently, the semantic web-based research is actively being studied, and the RDF (Resource Description Framework) data structure was studied by the W3C to support this.
RDF는 웹 상의 자원의 정보를 표현하기 위한 규격으로 이종의 데이터 간의 어의, 구문 및 구조에 대한 공통적인 규칙을 지원한다. RDF is a standard for expressing information of resources on the web. It supports common rules about the syntax, syntax, and structure of heterogeneous data.
RDF는 그래프로 표현되고 주어(subject), 술어(predicate) 및 목적어(object)인 트리플(triple)로 구성되어 있다. RDF is represented graphically and consists of triples: subjects, predicates, and objects.
웹 상의 RDF 데이터는 LOD(Link Open Data)를 지원하는 기관이 증가하면서 사용량이 증가하였다. 현재 특허청, 국립 수목원, 국사편찬위원회 등 10개가 넘는 공공기관에서는 LOD를 제공하고 있다. RDF data on the Web has increased as more organizations support Link Open Data (LOD). Currently, more than 10 public institutions, including the JPO, the National Arboretum, and the National History Compilation Committee, provide LODs.
이러한 LOD는 RDF 데이터 구조로 표현됨으로 앞으로 더 많은 RDF 데이터가 생산될 것이므로, RDF 데이터가 증가함에 따라 데이터를 효율적으로 저장하는 것은 중요해졌다. Since these LODs are represented as RDF data structures, more RDF data will be produced in the future, and as the RDF data increases, it becomes important to store data efficiently.
또한, RDF 데이터가 계속해서 생성되고 변경됨에 따라 RDF 데이터의 근원 정보, 즉 RDF 데이터가 어디서 왔는지, 누가 생성했는지, 어떻게 변화되었는지 등에 관한 정보를 관리하는 것이 필요하게 되었다. In addition, as the RDF data is continuously generated and changed, it is necessary to manage the source information of the RDF data, that is, information about where the RDF data came from, who created it, and how it was changed.
또한, 사용 이력 데이터를 관리함으로써 어떤 사용자가 하는 행위를 파악할 수 있고 RDF 데이터가 어떻게 변하였는지도 알 수 있다. Also, by managing the usage history data, it is possible to grasp which user is doing and how the RDF data has changed.
이러한 RDF 데이터의 근원 정보와 사용 이력 데이터에 대한 이력 정보를 관리하기 위한 메타데이터(metadata)로 프로버넌스(provenance)가 등장하였다. 프로버넌스의 데이터(이하, '프로버넌스 데이터'라 함)는 데이터의 근원 정보나 사용 이력을 나타내는 메타데이터이다. Provenance has emerged as metadata for managing the source information of such RDF data and the history information of the usage history data. Provenance data (hereinafter referred to as 'provenance data') is metadata representing the source information of the data and the history of use.
따라서, 이러한 프로버넌스를 활용하여 사용자의 데이터 변경 및 사용 인력을 파악할 수 있다. As a result, you can take advantage of these provisions to understand the user's data changes and people.
이러한 프로버넌스 데이터를 관리하기 위한 표준 모델로 W3C에서 PROV 모델을 제안되었다. As a standard model for managing such provenance data, the PROV model was proposed by the W3C.
PROV 모델은 노드(node)인 객체(entity), 활동(activity), 에이전트(agent) 및 속성(property)으로 이루어져 있다. The PROV model consists of nodes, which are entities, activities, agents, and properties.
객체는 시맨틱 웹에 표현되는 RDF 문서를 나타낸다. 활동은 시맨틱 웹 상의 문서를 변경하고 삭제하는 등 다양한 활동들을 나타낸다. 마지막으로 에이전트는 활동을 행하는 개인이나 조직을 나타내고 있다. The object represents an RDF document that is represented on the semantic web. Activities represent various activities, such as changing and deleting documents on the semantic web. Finally, an agent represents an individual or organization that performs an activity.
이러한 각각의 노드들은 유기적으로 연결되어 표현되고, 또한, 표준 규격인 PROV 모델을 이용하여 프로버넌스 데이터를 관리할 때 시맨틱 웹 데이터의 호환성을 향상시킬 수 있으며 표준 질의 언어를 통해 검색이 가능하다. Each of these nodes is organically connected and can be used to improve the compatibility of semantic web data when managing the provenance data using the standard PROV model, and can be searched through the standard query language.
프로버넌스 데이터는 이력 정보를 나타내기 위해 그래프로 구성되어 있으며 이러한 그래프는 중복된 데이터를 반복하여 표현한다. Provenance data is composed of graphs to represent historical information. Such graphs repeatedly represent duplicate data.
그렇기 때문에 그래프 압축이 필요하지만 대부분의 시맨틱 웹 상의 데이터는 RDF 데이터로 표현하기 때문에 RDF 데이터 압축 기법이 필요하다. For this reason, graph compression is required, but since most semantic web data is represented by RDF data, RDF data compression is required.
또한, 프로버넌스는 사용자의 이력정보를 고려해야 하기 때문에 프로버넌스의 흐름을 기반으로 한 프로버넌스 압축 기법이 필요하다. In addition, since Proverence needs to consider user's history information, Provenence compression technique based on the flow of Provenance is needed.
최근 프로버넌스 데이터를 압축하기 위한 연구들이 진행되고 있다. Recently, researches for compressing the provisional data have been conducted.
"A. Chapman, H. V. Jagadish, and P. Ramanan, “Efficient provenance storage”, In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.993-1006, 2008." 논문에서는 프로버넌스 데이터를 관리하기 위해 3개의 분해 기법과 2개의 상속기반의 함수를 제안되었는데, 이 논문에서, 중복되는 부분은 분해하여 동일한 부분을 상속시켜서 효율적으로 저장한다. "A. Chapman, H. V. Jagadish, and P. Ramanan," Efficient provenance storage ", In Proceedings of the ACM SIGMOD International Conference on Management of Data, pp.993-1006, 2008." In this paper, three decomposition schemes and two inheritance-based functions are proposed to manage the provenance data. In this paper, the overlapping parts are decomposed and inherited to store the same parts efficiently.
"Y. Xie, K. M. Reddy, D. Feng, Y. Li, and D. D. E. Long, “Evaluation of a hybrid approach for efficient provenance storage”, Journal of ACM Transactions on Storage, Vol. 9, No. 4, pp.14, 2013."논문에서는 프로버넌스 데이터를 압축하기 위해 웹 그래프 기반의 압축방법과 사전기반의 인코딩 기법을 결합시킨 프로버넌스 압축 기법을 제안되었다. "Y. Xie, KM Reddy, D. Feng, Y. Li, and DDE Long," Evaluation of a hybrid approach for efficient provenance storage ", Journal of ACM Transactions on Storage, Vol. 9, No. 4, pp.14 , 2013. "In this paper, we propose a method of compression that combines web graph-based compression and dictionary-based encoding to compress the data.
일반적인 프로버넌스 압축 기법에서는 중복되는 부분을 압축하여 기존의 프로버넌스 데이터를 관리한다. 하지만 표준 프로버넌스 모델을 적용한 압축 기법은 없으며 일반적인 처리 데이터를 이용하여 압축하였기 때문에 RDF로 이루어진 프로버넌스 데이터에 적용하여 관리하기 힘들다. 또한, 기존의 프로버넌스 압축 기법으로 압축하였을 때는 RDF 데이터에서 술어의 부분이 손실될 가능성이 있다. 뿐만 아니라 표준 모델을 이용한 압축 기법이 제안되지 않았다. 프로버넌스 데이터에 대해서 관리하지만 해당 원본 RDF 문서에 대해서는 관리를 하지 않았다.In the general provenance compression scheme, the existing redundant data is managed by compressing the overlapped portions. However, there is no compression technique applying the standard provenence model, and since it is compressed using general processing data, it is difficult to apply it to the provisional data composed of RDF. In addition, there is a possibility that the part of the predicate in the RDF data is lost when compressed with the existing provention compression technique. In addition, no compression scheme using the standard model has been proposed. It manages the provisioning data but not the original RDF document.
일반적으로, 프로버넌스 데이터는 원본데이터에 비해 수십 배에 달할 수 있고, 뿐만 아니라 프로버넌스 데이터의 크기는 대용량 데이터로 시맨틱 웹에 표현된다.In general, the provisional data can be tens of times larger than the original data, and the size of the provisional data is represented on the semantic web as a large amount of data.
프로버넌스 데이터는 사용되는 관리 기법에 적합하게 관리되지만, 다양한 사용자가 사용하기 위해서는 표준 모델을 이용한 프로버넌스 관리가 필요하다. 또한, 기존의 프로버넌스 관리 기법에서는 원본 문서를 따로 관리하지 않고 또한 RDF 데이터에 대해서도 고려하지 않는다. 더욱이, 기존의 RDF 데이터 압축 기법은 변경 이력을 고려하지 않았다. Provenance data is managed appropriately for the management techniques used, but it needs to be managed using a standard model to be used by various users. In addition, the existing provision management technique does not manage the original document separately and does not consider the RDF data. Moreover, existing RDF data compression techniques do not consider the change history.
따라서 본 발명이 이루고자 하는 기술적 과제는 대용량의 RDF 프로버넌스 데이터를 효율적으로 관리하기 위한 압축 방식을 제공하기 위한 것이다.Accordingly, an aspect of the present invention is to provide a compression scheme for efficiently managing a large amount of RDF provisional data.
본 발명이 이루고자 하는 다른 기술적 과제는 RDF 프로버넌스 데이터의 저장 용량을 줄이기 위한 것이다.Another technical problem to be solved by the present invention is to reduce the storage capacity of the RDF provisional data.
본 발명의 한 특징에 따른 프로버넌스 관리를 위한 압축 장치는 이력 정보와 최종 문서를 입력받아 프로버넌스 모델을 이용하여 데이터 프로버넌스를 생성하는 프로버넌스 생성부, 상기 프로버넌스 생성부와 연결되어 있고, 상기 데이터 프로번스의 문자열 데이터를 숫자열 데이터로 사전 인코딩하여 사전 인코딩 테이블에 저장하고 숫자열 데이터 프로버런스를 출력하는 사전 인코딩부, 상기 사전 인코딩부와 연결되어 있고, 상기 숫자열 데이터 프로버런스를 입력받아 주어와 목적어를 함께 숫자열로 인코딩하고 술어만을 따로 숫자열로 인코딩하여 최종 RDF 데이터 인코딩 테이블에 저장하고, 상기 최종 RDF 데이터 인코딩 테이블에 저장된 데이터를 이용하여 인코딩 프로버넌스 그래프를 생성하며, 생성된 인코딩 프로버넌스 그래프를 이용하여 반복되는 그래프 패턴을 추출한 후, 추출된 그래프 패턴의 반복 횟수를 패턴 통계 테이블에 저장하고, 추출된 그래프 패턴을 찾은 순서에 대응하게 추출된 그래프 패턴의 각 노드에 대한 주어나 목적어를 그래프 패턴 변수 테이블에 저장하고, 상기 그래프 패턴 변수 테이블에 저장된 값을 이용하여 최종 문서에 대한 데이터 패턴 압축 그래프를 생성하는 최종 RDF 압축부, 그리고 상기 사전 인코딩부와 연결되어 있고, 상기 숫자열 데이터 프로버런스를 입력받아 활동 데이터를 기준으로 하여 상기 숫자열 데이터 프로버런스에서 반복되는 패턴을 갖는 서브 그래프를 생성하고, 반복되는 패턴을 갖는 서브 그래프의 횟수 정보를 서브 그래프 통계 테이블에 저장하며, 상기 반복되는 패턴을 갖는 서브 그래프가 설정 횟수이상 나타나면, 상기 반복되는 패턴을 갖는 서브 그래프를 기준 패턴으로 정하고 프로버넌스 패턴 압축부를 포함한다. According to an aspect of the present invention, there is provided a compression apparatus for managing provenance, including: a probability generation unit configured to receive history information and a final document, and to generate a data proof using a provisioning model; A pre-encoding unit connected to the pre-encoding unit, pre-encoding the string data of the data probe into numeric string data, storing the data in a pre-encoding table, and outputting the numeric string dataverification; Receives the column data provisionance, encodes the subject and object together into a numeric string, encodes only the predicates into a numeric string, and stores them in the final RDF data encoding table, and encodes the data using the data stored in the final RDF data encoding table. Generates a graph and iterates using the generated encoding compliance graph Extracts the graph pattern, stores the number of repetitions of the extracted graph pattern in the pattern statistics table, and stores the subject or object for each node of the extracted graph pattern in the graph pattern variable table corresponding to the order of finding the extracted graph pattern. A final RDF compression unit for storing a data pattern compression graph for a final document using the values stored in the graph pattern variable table, and connected to the pre-encoding unit, and receives the numeric string data conference. Generate a subgraph having a repeating pattern in the numeric string data conference based on activity data, store information on the number of times of the subgraph having a repeating pattern in a subgraph statistics table, and have the repeated pattern If the subgraph appears more than the set number of times, the repeating pattern Establish a reference pattern for the sub-graph comprises pro governance pattern compression sections.
상기 프로버넌스 모델은 객체 노드, 에이전트 노드, 활동 노드 및 시간에 대한 정보와 소스에 대한 정보를 구비한 메타데이터 노드를 포함하는 것이 좋다.The provisioning model may include an object node, an agent node, an activity node, and a metadata node having information about a time and a source.
사전 인코딩부는 에이전트 노드, 메타데이터 노드 및 객체 노드를 인코딩하하여 인코딩 값을 데이터 테이블에 저장하고, 활동 노드를 인코딩하여 인코딩 값을 활동 테이블에 저장하며, 속성을 인코딩하여 인코딩 값을 술어 테이블에 저장하는 것이 바람직하다.The pre-encoding unit encodes agent nodes, metadata nodes, and object nodes to store encoding values in a data table, encodes activity nodes to store encoding values in an activity table, and encodes attributes to store encoding values in a predicate table. It is desirable to.
본 발명의 다른 특징에 따른 프로버넌스 관리를 위한 압축 방법은 이력 정보와 최종 문서를 입력받아 프로버넌스 모델을 이용하여 데이터 프로버넌스를 생성하는 단계, 상기 데이터 프로번스의 문자열 데이터를 숫자열 데이터로 사전 인코딩하여 사전 인코딩 테이블에 저장하고 숫자열 데이터 프로버런스를 출력하는 단계, 상기 숫자열 데이터 프로버런스를 입력받아 주어와 목적어를 함께 숫자열로 인코딩하고 술어만을 따로 숫자열로 인코딩하여 최종 RDF 데이터 인코딩 테이블에 저장하고, 상기 최종 RDF 데이터 인코딩 테이블에 저장된 데이터를 이용하여 인코딩 프로버넌스 그래프를 생성하는 단계, 생성된 인코딩 프로버넌스 그래프를 이용하여 반복되는 그래프 패턴을 추출한 후, 추출된 그래프 패턴의 반복 횟수를 패턴 통계 테이블에 저장하고, 추출된 그래프 패턴을 찾은 순서에 대응하게 추출된 그래프 패턴의 각 노드에 대한 주어나 목적어를 그래프 패턴 변수 테이블에 저장하는 단계, 그리고 상기 그래프 패턴 변수 테이블에 저장된 값을 이용하여 최종 문서에 대한 데이터 패턴 압축 그래프를 생성하는 단계를 포함한다. In accordance with another aspect of the present invention, there is provided a compression method for managing provenance, generating a data provision by using history information and a final document, and generating a string of string data of the data provision. Pre-encoding the data into a pre-encoding table and outputting the numeric string data prober; receiving the numeric string data prober, encoding the subject and object together with the numeric string, and encoding only the predicates into the numeric string separately. Storing in a final RDF data encoding table, generating an encoding compliance graph using data stored in the final RDF data encoding table, extracting a repeated graph pattern using the generated encoding compliance graph, and then extracting The number of iterations of the plotted graph pattern in the pattern statistics table, Storing the subject or object for each node of the extracted graph pattern in the graph pattern variable table corresponding to the order of finding the exported graph pattern, and compressing the data pattern for the final document by using the values stored in the graph pattern variable table. Generating a graph.
상기 프로버넌스 모델은 객체 노드, 에이전트 노드, 활동 노드 및 시간에 대한 정보와 소스에 대한 정보를 구비한 메타데이터 노드를 포함하는 것이 좋다.The provisioning model may include an object node, an agent node, an activity node, and a metadata node having information about a time and a source.
이러한 특징에 따르면, 기존의 PROV 모델은 변경한 시간과 변경된 원본 RDF 문서를 표현하지 못하기 때문에, 본 예에서는 프로버넌스 데이터를 표현하기 위해 기준의 PRVO 모델을 확장한 확장된 PROV 모델을 이용하여 대용량의 RDF 프로버넌스 데이터를 관리하기 위한 압축 방법을 제안한다.According to this feature, since the existing PROV model cannot represent the changed time and the changed original RDF document, this example uses an extended PROV model that extends the standard PRVO model to represent the provenance data. We propose a compression method for managing large RDF provisioning data.
또한, 프로버넌스 데이터가 문자열 데이터로 표현되기 때문에 사전 인코딩을 통해 PROV 모델의 모든 데이터를 숫자 데이터로 저장하고, 이로 인해, 사전 인코딩을 통해 문자열 데이터를 숫자 데이터로 저장함으로써 저장량이 감소된다.In addition, since the provenance data is represented as string data, all data of the PROV model is stored as numeric data through pre-encoding, which reduces the amount of storage by storing the string data as numeric data through pre-encoding.
또한, 기존의 PROV 모델과는 달리 확장된 PROV 모델에서는 변경되거나 추가될 최종 RDF 문서를 다루고 있으므로 이력 추적이 용이한다.In addition, unlike the existing PROV model, the extended PROV model handles the final RDF document to be changed or added, making history tracking easier.
더욱이, 본 예는 기존의 PROV 모델과 달리 최종 RDF 문서를 관리하기 때문에 최종 RDF 문서의 저장 공간이 많이 차지하는 것을 방지하기 위해 원본 RDF 압축을 통해 원본 RDF 문서를 압축한다.Furthermore, since this example manages the final RDF document, unlike the existing PROV model, the original RDF document is compressed through the original RDF compression to prevent the storage space of the final RDF document from occupying much.
마지막으로, 본 예의 경우, PROV 모델에서 데이터 활동 노드의 중복되는 부분은 서브 그래프로 만들어 압축 저장함으로써 데이터의 사용 이력을 고려하여 프로버넌스 데이터를 압축한다.Finally, in the case of this example, the redundant portion of the data activity node in the PROV model is compressed into a subgraph to store the compressed data in consideration of the usage history of the data.
도 1은 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치의 블럭도이다.1 is a block diagram of a compression apparatus for management of prosperity according to an embodiment of the present invention.
도 2는 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치의 동작 순서도이다.2 is a flowchart illustrating an operation of a compression apparatus for management of maintenance according to an embodiment of the present invention.
도 3는 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치의 확장된 PROV 모델의 예를 도시한다.3 shows an example of an extended PROV model of a compression device for provisioning management according to an embodiment of the present invention.
도 4a는 종래의 PROV 모델에 따리 생성된 데이터 프로버넌스의 한 예이다.4A is an example of data provisionance generated according to a conventional PROV model.
도 4b는 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치의확장된 PROV 모델에 따리 생성된 데이터 프로버넌스의 한 예이다.4B is an example of data provisioning generated according to an extended PROV model of a compression apparatus for management of provisioning according to an embodiment of the present invention.
도 5는 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치의 사전 인코딩부에 입력되는 데이터 프로버넌스의 한 예이다.FIG. 5 is an example of data provisionance input to a pre-encoding unit of a compression device for provisioning management according to an embodiment of the present invention.
도 6은 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치의 사전 인코딩 동작에 의해 생성된 숫자열 데이터 프로버넌스의 한 예이다.FIG. 6 is an example of numeric string data provisioning generated by a pre-encoding operation of a compression device for provisioning management according to an embodiment of the present invention.
도 7은 본 발명의 한 실시예에 따라 생성된 인코딩 프로버넌스 그래프의 한 예이다.7 is an example of an encoding probence graph generated according to an embodiment of the present invention.
도 8은 본 발명의 한 실시예에 따라 최종 RDF 문서에서 추출되는 그래프 패턴의 예이다.8 is an example of a graph pattern extracted from a final RDF document in accordance with one embodiment of the present invention.
도 9의 (a)와 (b)는 도 8의 그래프 패턴에서 추출된 반복적인 그래프 패턴이다.9A and 9B are repetitive graph patterns extracted from the graph pattern of FIG. 8.
도 10은 본 발명의 한 실시예에 따른 최종 RDF 문서에 대한 데이터 패턴 압축 그래프이다.10 is a data pattern compression graph for the final RDF document in accordance with one embodiment of the present invention.
도 11은 본 발명의 한 실시예에서 숫자열 데이터 프로버넌스에서 서브 그래프를 추출하는 과정을 도시한다.FIG. 11 illustrates a process of extracting a subgraph from numeric data data provisioning in accordance with an embodiment of the present invention.
도 12는 본 발명의 한 실시예에 따른 기준 패턴의 한 예이다.12 is an example of a reference pattern according to an embodiment of the present invention.
도 13은 본 발명의 한 실시예에 따른 패턴 압축된 프로버넌스 그래프의 한 예이다.FIG. 13 is an example of a pattern-compressed provisionality graph according to an embodiment of the present invention. FIG.
10: 프로버넌스 생성부 20: 프로버넌스 압축 유닛10: Provenance generation unit 20: Provenance compression unit
21: 사전 인코딩부 22: 최종 RDF 압축부21: pre-encoding section 22: final RDF compression section
23: 프로버넌스 패턴 압축부 30: 저장부23: Provenance pattern compression unit 30: Storage unit
아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.DETAILED DESCRIPTION Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those skilled in the art may easily implement the present invention. As those skilled in the art would realize, the described embodiments may be modified in various different ways, all without departing from the spirit or scope of the present invention. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and like reference numerals designate like parts throughout the specification.
어떤 구성요소가 다른 구성요소에 "접속되어" 있다거나 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 접속되어 있거나 연결되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 한다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 접속되어" 있다거나 "직접 연결되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.When a component is referred to as being "connected" or "connected" to another component, it is to be understood that the component may be directly connected or connected to the other component, but there may be other components in between. do. On the other hand, when a component is said to be "directly connected" or "directly connected" to another component, it should be understood that there is no other component in between.
그러면 첨부한 도면을 참고로 하여 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치 및 방법에 대하여 설명한다.Next, a compression apparatus and method for management of proofs according to an embodiment of the present invention will be described with reference to the accompanying drawings.
본 예에서는 프로버넌스 데이터를 압축하기 위해 프로버넌스 모델(PROV 모델) 기반의 프로버넌스 데이터 압축 방법이 사용된다.In this example, a probe data compression method based on a probe model (PROV model) is used to compress the probe data.
프로버넌스 데이터를 확인하기 위해서는 시간의 흐름이나 정보의 변경 이력을 고려하여 압축해야 하는데, 본 예의 프로버너스 데이터 압축 방법은 RDF 데이터를 표현하기 위해 기존의 PROV 모델을 확장한다.In order to check the provenance data, it is necessary to compress it in consideration of the passage of time or the change history of information. In this example, the Provenance data compression method extends an existing PROV model to represent RDF data.
이때, 확장된 PROV 모델에는 시간이 표기되기 때문에 시간의 흐름에 따라 변경된 것을 확인할 수 있다. 따라서 확장된 PROV 모델을 사용함으로써 데이터의 이력 정보를 고려하여 압축하게 된다. 또한, 시간에 따라 프로버넌스 데이터를 표현하기 때문에 언제 누가 어떤 문서를 수정하였는지 확인할 수 있다. At this time, since the time is indicated in the extended PROV model, it can be confirmed that the time has changed. Therefore, by using the extended PROV model, the data is compressed considering the historical information. In addition, it represents the proof data over time, so you can see who modified what documents and when.
대부분의 프로버넌스 데이터는 문자열로 구성되기 때문에 사전 인코딩을 통해 숫자 데이터로 변경된다. 확장된 PROV 모델에서 변경될 원본 RDF 문서를 관리하기 때문에 원본 문서가 차지하는 공간이 크게 되므로, 원본 RDF 압축을 통해 각 각의 원본 RDF 문서의 크기를 압축한다. Since most of the proof data consists of strings, it is converted into numeric data through dictionary encoding. Since the original document takes up a lot of space because it manages the original RDF document to be changed in the extended PROV model, the original RDF compression compresses the size of each original RDF document.
또한, 전체적인 프로버넌스 데이터의 크기를 감소시키기 위해 프로버넌스 패턴 압축 모듈에서는 PROV 모델의 활동 노드를 기반으로 동일한 순서로 사용되는 패턴을 추출하여 프로버넌스 데이터를 압축한다.In addition, in order to reduce the overall size of the probe data, the probe version compression module extracts the patterns used in the same order based on the active nodes of the PROV model and compresses the probe data.
도 1에 도시한 것처럼, 본 발명의 한 실시예에 따른 프로버넌스 관리를 위한 압축 장치(이하, 프로버넌스 관리를 위한 압축 장치를 '프로버넌스 압축 장치'라 함)는 이력 정보와 최종 문서를 입력 받는 프로버넌스 생성부(10), 프로버넌스 생성부(10)에 연결되어 있는 프로버넌스 압축 유닛(20) 및 프로버넌스 압축 유닛(20)에 연결되어 있는 저장부(30)를 구비한다.As shown in FIG. 1, a compression device for managing probability according to an embodiment of the present invention (hereinafter, referred to as a compression device for provenance management) refers to history information and final information. Provenance generation unit 10 for receiving a document, a probe unit 20 connected to the probe generation unit 10 and the storage unit 30 connected to the probe version 20 ).
프로버넌스 생성부(10)는 이력 정보와 최종 문서를 이용하여 해당 데이터, 즉 최종 문서에 대한 프로버넌스(이하, 해당 데이터에 대한 프로버런스를 '데이터 프로버런스'라 함)를 생성한다. Probability generation unit 10 generates the relevant data, that is, the probability of the final document (hereinafter, the 'proverance of the corresponding data' is referred to as 'data provision') by using the historical information and the final document. do.
프로버넌스 압축 유닛(20)은 문자열로 이루어진 생성된 데이터 프로버런스를 숫자열로 인코딩하는 사전 인코딩부(21), 사전 인코딩부(21)와 연결되어 있고 숫자열로 인코딩된 데이터 프로버런스(이하, '숫자열 데이터 프로버런스'라 함)에서, 최종 문서를 압축하는 최종 RDF 압축부(22), 그리고 사전 인코딩부(21)와 연결되어 있고 숫자열 데이터 프로버런스에서 이력 정보를 추출하여 압축하는 프로버넌스 패턴 압축부(23)를 구비한다. Probability compression unit 20 is connected to the pre-encoding unit 21, the pre-encoding unit 21 for encoding the generated data of the conversion of the string into the numeric string, the data probe encoded in the numeric string In the following (hereinafter referred to as 'numeric data provision'), it is connected to the final RDF compression unit 22 for compressing the final document, and the pre-encoding unit 21, and the history information is obtained from the numeric data provision. The provision pattern compression part 23 which extracts and compresses is provided.
저장부(30)는 프로버넌스 압축 장치의 동작에 필요한 데이터와 정보, 동작 중에 발생된 데이터와 정보 등이 저장되는 저장 매체이다.The storage unit 30 is a storage medium that stores data and information necessary for the operation of the provisioning compression device, data and information generated during the operation, and the like.
본 예에서, 이력 정보와 최종 문서는 모두 RDF 형식로 이루어지는 RDF 데이터 구조를 갖고, 프로버넌스 역시 RDF 형식으로 표현된다. 또한, RED 형식으로 이루어진 문서는 그래프로 표현되므로, 최종 RDF 문서나 원본 RDF 문서와 같은 RDF 문서와 프로버넌스 역시 그래프로 표현된다.In this example, both the historical information and the final document have an RDF data structure in RDF format, and the provisioning is also expressed in RDF format. In addition, documents in RED format are represented as graphs, so RDF documents and provisions such as final RDF documents or original RDF documents are also represented as graphs.
따라서, 사전 인코딩부(21)는 프로버런스 생성부(10)에서 데이터 프로버런스가 인가되면 사전 인코딩(encoding) 동작을 통해 문자열 데이터인 데이터 프로버런스의 데이터를 문자열 데이터에서 숫자 데이터로 인코딩한다.Therefore, when data provision is applied by the probe generating unit 10, the pre-encoding unit 21 encodes data of the data proberence, which is string data, from string data to numeric data through a pre-encoding operation. do.
이처럼, 문자열 데이터가 숫자 데이터를 변경됨에 따라 숫자열 데이터 프로버런스의 저장 공간이 감소된다.As such, as the string data changes the numeric data, the storage space of the numeric string data conference is reduced.
최종 RDF 압축부(22)는 최종 문서를 압축하여 시맨틱 웹 상의 최종문서[즉, RDF 형태로 이루어진 최종 문서(최종 RDF 문서)]를 압축한다. 이때, 기존의 PROV 모델과는 다르게 최종 문서를 관리한다. 최종 문서는 시맨틱 웹 상의 문서를 의미한다. The final RDF compression unit 22 compresses the final document to compress the final document on the semantic web (that is, the final document in the form of RDF (final RDF document)). At this time, unlike the existing PROV model manages the final document. The final document refers to a document on the semantic web.
최종 RDF 압축부(22)는 사전 인코딩부(21)에서와 같이 인코딩 동작을 실시하지만 사전 인코딩부(10)에서 사용되는 인코딩 방식과는 다른 방식을 이용하여 최종 문서를 인코딩한다.The final RDF compression unit 22 performs the encoding operation as in the pre-encoding unit 21, but encodes the final document using a method different from the encoding method used in the pre-encoding unit 10.
즉, 최종 문서 압축 시, 주어(S)와 목적어(O)는 같이 인코딩되지만 술어(P)는 따로 인코딩된다. 이때, 동일한 패턴을 검색하고, 검색된 동일한 패턴을 이용하여 최종 문서를 압축한다. 여기서 동일한 패턴이란 주어(S)와 목적어(O)는 상이하더라고 술어(P)의 사용이 동일하면 동일한 패턴으로 간주한다. That is, in the final document compression, the subject S and the object O are encoded together, but the predicate P is separately encoded. At this time, the same pattern is searched and the final document is compressed using the searched same pattern. Here, the same pattern is regarded as the same pattern if the subject (S) and the object (O) are different, but the use of the predicate (P) is the same.
마지막으로, 프로버넌스 패턴 압축부(23)는 프로버넌스 그래프에서 PROV 모델의 활동을 기준으로 서브 그래프를 추출된다. 서브 그래프 추출 후, 추출된 서브 그래프의 빈도수에 따라 일정 수치 값 이상이 나오면 패턴화하고, 패턴화된 정보를 통해 최종 그래프를 변경한다.Finally, the probe pattern compression unit 23 extracts a subgraph based on the activity of the PROV model from the probe graph. After the subgraph is extracted, if a predetermined numerical value or more comes out according to the frequency of the extracted subgraph, the final graph is changed through the patterned information.
PROV 모델은 프로버넌스 데이터를 관리하기 위해 W3C에서 제안된 표준 모델이다. PROV 모델은 시맨틱 웹에서 프로버넌스 데이터를 관리하는 방법이 상이할 경우 호환성이 결여될 뿐만 아니라 대부분의 시맨틱 웹 데이터는 표준 규격인 PROV 모델로 표현이 가능하다. The PROV model is a standard model proposed by the W3C to manage provenance data. The PROV model is not compatible when the method of managing the provention data in the semantic web is different, and most of the semantic web data can be expressed as a standard standard PROV model.
그래서 본 예서는 프로버넌스의 흐름을 나타내기 위해서 PROV 모델을 이용한 프로버넌스 압축 방법이 사용된다.Thus, in this example, the Provenance Compression method using the PROV model is used to represent the flow of Provenance.
PROV 모델은 프로버넌스 데이터를 관리하기 위한 모델로서 데이터의 흐름을 나타낸다. 기존의 PROV 모델은 기존의 프로버넌스 데이터를 표현하는데 용이하지만 웹 상의 RDF 문서(즉, RDF 데이터 구조를 갖는 문서)를 표현하는 노드가 없기 때문에 RDF 문서를 표현하기에는 부족하다. 또한, 시간에 흐름에 따라 작성되지만 언제 변경하였는지에 관한 정확한 정보가 표시하지 않는다. The PROV model represents a data flow as a model for managing the provenance data. Existing PROV models are easy to represent existing provenance data, but are insufficient to represent RDF documents because there are no nodes representing RDF documents on the web (ie, documents with RDF data structures). It is also created over time, but does not display accurate information about when it was changed.
이로 인해, 본 예는 기존의 PROV 모델을 확장하여 메타데이터를 표현하는 부분을 추가한다. 이 과정을 통해 기존 모델과는 달리 시맨틱 웹 상의 RDF 문서의 변경 부분 및 변경된 시간을 알 수 있다. For this reason, this example extends an existing PROV model and adds a part representing metadata. This process, unlike the existing model, reveals the changed parts and the changed time of the RDF document on the Semantic Web.
따라서, 본 예에 따른 프로버넌스 생성부(10)는 도 3에 도시한 확장된 PROV 모델을 사용한다.Therefore, the proofer generation unit 10 according to the present example uses the extended PROV model shown in FIG. 3.
확장된 PROV 모델은 이미 설명한 객체(Entity), 활동(Activity) 및 에이전트(Agent)로 이루어진 노드(N11-N13)과 속성들(used, wasGeneratedBy, wasDerivedFrom, wasInformedBy, wasAttributedTo, ActedOneBehalfOf, wasAssociatedWith, time, source)을 구비한 기존의 PROV 모델에서 메타데이터(MetaData)의 노드(N14)를 추가하여 구성된 것으로서, 이로 인해, 확장된 PROV 모델에 의해 생성된 데이터 프로버런스에는 RDF 문서가 언제 변형되었는지, 무슨 RDF 문서가 변형하였는지에 관한 정보가 추가로 표현된다.The extended PROV model consists of nodes (N11-N13) and attributes (used, wasGeneratedBy, wasDerivedFrom, wasInformedBy, wasAttributedTo, ActedOneBehalfOf, wasAssociatedWith, time, source) that consist of already described entities, activities, and agents. It consists of adding the node N14 of Meta Data from the existing PROV model with), which causes when the RDF document is transformed and what RDF is generated by the data probe generated by the extended PROV model. Information about whether the document has been modified is further represented.
에이전트는 개인과 조직으로 구성되며 해당 활동을 실행한 개인이나 조직을 표현한다. An agent is made up of individuals and organizations and represents the person or organization that performed the activity.
메타데이터는 시간과 소스로 구성되며 해당 활동이 언제 실행되었는지 어떤 RDF 문서를 수정하였는지를 확인한다. The metadata consists of time and source and identifies when the activity was executed and what RDF documents were modified.
객체는 RDF 문서를 나타내며, 활동은 해당 RDF 문서에 어떤 작업을 수행하였는지를 나타낸다. An object represents an RDF document, and an activity represents what you have done to that RDF document.
도 3에서, ‘used’ 속성은, 그래프에서, 활동에서 객체로 연결하는 것으로 객체(N11)의 실행에 필요한 객체를 나타낸다. In FIG. 3, the 'used' attribute represents, in the graph, the object required for the execution of the object N11 by connecting to the object in the activity.
‘wasGeneratedBy’ 가지(즉, 속성)는 객체에서 활동을 연결한 것으로 활동(N12)으로 인해 나온 결과물인 객체가 해당 활동을 나타낸다.The ‘wasGeneratedBy’ branch (i.e., attribute) is the concatenation of an activity on an object, and the object that results from the activity (N12) represents that activity.
‘wasDerivedFrom’ 속성은 객체에서 객체를 연결하는 속성이다.The 'wasDerivedFrom' property is a property that connects objects from an object.
‘wasInformedBy’속성은 하나의 활동에 의해 생성된 객체가 다른 객체와의 교환을 나타내는 속성이며, ‘wasAttributedTo’ 속성은 에이전트가 객체의 영향을 주는 것을 말한다. The 'wasInformedBy' attribute is an attribute representing the exchange of an object with one object created by one activity, and the 'wasAttributedTo' attribute is an agent's influence on the object.
‘ActedOneBehalfOf’속성은 에이전트가 특정 에이전트를 대신하는 것을 의미한다. 그 다음으로 에이전트와 활동을 연결하는 속성으로 ‘wasAssociatedWith’가 있다. The attribute "ActedOneBehalfOf" means that an agent takes over for a specific agent. The next attribute that connects an agent to an activity is 'wasAssociatedWith'.
‘time’속성은 활동과 메타데이터의 시간을 연결하는 속성으로 해당 활동이 언제 행해졌는지 알 수 있다. ‘source’속성 는 메타데이터의 소스와 활동을 연결하는 속성으로 해당 활동이 행해지는 RDF 문서를 뜻한다.The 'time' attribute connects the time of the activity with the metadata so that it knows when the activity was done. The 'source' attribute is an attribute that links the source of the metadata with the activity, and refers to the RDF document in which the activity is performed.
다음의 [표 1]에 도 3에 도시된 확장된 PROV 모델에서 사용되는 요소들에 대한 정의가 기재되어 있다.The following Table 1 describes the definitions for the elements used in the extended PROV model shown in FIG. 3.
클래스class | 서브클래스Subclass | 설명Explanation |
객체(entity)Entity | 문서(document)Document | RDF으로 구성된 문서Documents configured with RDF |
에이전트(agent)Agent | 개인(person)Person | 활동 행하는 개인An activity person |
조직(organization)Organization | 활동 행하는 조직Organization | |
활동(activity)Activity | 삽입(insert)Insert | 기존의 문서에서 RDF 데이터가 삽입될 때When RDF data is inserted from an existing document |
삭제(delete)Delete | 기존의 문서에서 RDF 데이터가 삭제될 때When RDF data is deleted from an existing document | |
변경(modify)Modify | 기존의 RDF 문서가 새로운 RDF 문서로 변형될 때When an existing RDF document is transformed into a new RDF document | |
버저닝(revision)Versioning | 기존의 RDF 문서가 새롭게 버저닝 될 때When an existing RDF document is newly versioned | |
메타데이터(metadata)Metadata | 시간(time)Time | 활동이 행해지는 시간The time when the activity is done |
소스(source)Source | 활동에 의해 추가, 삭제 또는 변경될 RDF 데이터나 RDF 문서RDF data or RDF documents to be added, deleted, or changed by an activity |
[표 1]에서, 에이전트는, 이미 설명한 것처럼, 개인과 조직으로 나누어지며 실제 활동을 동작하는 주체에 해당한다. In Table 1, the agent, as already explained, is divided into individuals and organizations and is the subject that operates the actual activity.
객체는 문서로서 RDF 데이터 구조를 갖는 RDF 문서를 의미한다. An object means an RDF document having an RDF data structure as a document.
활동은 삽입, 삭제, 변경 및 버저닝의 총 네 개의 요소로 이루어진다.An activity consists of four elements: insert, delete, change, and versioning.
메타데이터는 실제 활동이 동작할 때 생성되고 시간이나 변경할 문서(즉, 소스)를 나타낸다. Metadata is generated when the actual activity is run and represents the time or document (ie source) to be modified.
예를 들어, 위키피디아(Wikipedia)의 변경 이력들을 PRVO 모델로 만든다면 객체들은 위키피디아의 페이지를 뜻하고 에이전트는 페이지를 변경하는 개인을 뜻한다. 또한, 활동은 그 페이지에 내용을 추가하거나 새로운 페이지를 생성하는 활동들을 나타내며, 마지막으로 메타데이터에서 시간이란 그 페이지를 수정하거나 추가한 시간을 뜻하고 소스란 변경하였을 경우에는 변경한 내용, 새로 페이지를 추가하였을 때는 새로 추가된 내용을 뜻한다.For example, if you make Wikipedia's change histories into a PRVO model, objects represent pages from Wikipedia, and agents represent individuals who change pages. In addition, the activity refers to activities that add content to the page or create a new page. Finally, in the metadata, time means the time when the page is modified or added, and when the source is changed, the changed content or the new page. When added, it means the newly added contents.
다음, 도 4a를 참고로 하여 기존의 PROV 모델을 이용하여 생성된 프로버넌스의 한 예를 설명한다.Next, with reference to Figure 4a will be described an example of the generated by using the existing PROV model.
도 4a에 도시한 프로버넌스를 참고로 하면, 어떤 문서(도시하지 않음)에 '문서 C'와 '문서 D를 삽입하여 새로운 '문서 F'를 생성하였고 생성된 '문서 F'는 '지은'이라는 개인에 의해 만들어진다.Referring to the Provenence shown in FIG. 4A, a new 'Document F' is created by inserting 'Document C' and 'Document D' into a document (not shown), and the generated 'Document F' is named 'Jieun'. Created by an individual named
또한, 도 4a를 살펴보면, 개인인 '선화'에 의해 '문서 F'에 어떠한 내용이 삽입되어 새로운 문서 X가 생성됨을 나타낸다. In addition, referring to FIG. 4A, a new document X is generated by inserting certain content into the document F by an individual 'line drawing'.
하지만, 도 4a의 경우, '문서 F의 어떤 내용이 삽입되어 어떤 부분이 변경되었는지 알 수 없고 또한, 언제 변경되었는지 알 수 없다.However, in the case of FIG. 4A, 'the content of the document F is inserted and it is not known which part has been changed, and when it has been changed.
반면, 도 4b는 도 4a의 경우와 동일한 과정을 통해 '문서 F'와 '문서 X'가 생성될 때, 본 예에 따른 확장된 PROV 모델을 이용하여 생성된 데이터 프로버넌스를 도시한다. On the other hand, FIG. 4B illustrates data provisionance generated using the extended PROV model according to the present example when 'Document F' and 'Document X' are generated through the same process as that of FIG. 4A.
즉, 도 4b의 프로버넌스를 참고로 하면, 어떤 문서(도시하지 않음)에 '문서 C'와 '문서 D'를 삽입하여 새로운 '문서 F'를 생성하였고 생성된 '문서 F'는 '지은'이라는 개인에 의해 만들어졌는데, 이때, 시간에 대한 메타데이터(M11)와 소스에 대한 메타데이터(M12)로 인해 '문서 F'는 2015년 09월 02일에 만들어졌고, RDF데이터가 추가되었음을 알 수 있다.That is, referring to the provision of FIG. 4B, a new 'document F' is generated by inserting 'document C' and 'document D' into a document (not shown), and the generated 'document F' 'Document F' was created on September 02, 2015, due to metadata for time (M11) and metadata for source (M12), indicating that RDF data was added. Can be.
또한, 새로 생성된 '문서 F'에 메타데이터(M21, M22)와 같이 2015년 09월 03일에 해당 RDF 데이터를 개인인 '선화'에 의해 추가되어 새로운 '문서 X'가 생성됨을 알 수 있다.Also, it can be seen that new document 'X' is created by adding the corresponding RDF data by individual 'Line Art' on September 03, 2015, like metadata (M21, M22) to newly generated 'document F'. .
*이미 설명한 것처럼, 소스를 나타내는 메타데이터(M12, M22)를 이용하여 RDF 데이터가 표현되고, 시간을 나타내는 메타데이터(M11, M21)를 이용하여 변경된 시간을 기록하여 해당 프로버넌스 데이터가 언제 생성되었는지 확인하게 된다.As described above, when the RDF data is represented using the metadata M12 and M22 representing the source, and the changed time is recorded using the metadata M11 and M21 representing the time, when the corresponding proof data is generated. Will be checked.
이처럼, 본 예의 경우, 프로버넌스 생성부(10)는 시간과 소스를 나타내는 메타데이터 노드를 추가로 추가하여 해당 문서(또는 데이터)에 대한 데이터 프로버런스를 생성하여 프로버런스 압축 유닛(20)으로 인가한다(S10).As such, in the present example, the proofer generation unit 10 further adds a metadata node indicating a time and a source to generate a data probe for the document (or data) to generate the probe compression unit 20. ) To be applied (S10).
이미 설명한 것처럼, 데이터 프로버넌스는 원본 데이터에 비해 수십 배에 달하는 대용량 데이터로 구성되며 문자열 데이터로 이루어져 있다. As already explained, data provisionance consists of string data that is tens of times larger than the original data.
예를 들어, 위키피디아의 경우를 살펴보면, 한 페이지에도 여러 명의 사용자가 내용을 변경한 것이 문자열 데이터로 나타내진다. 그렇기 때문에 해당 데이터 프로버넌스의 문자열 데이터를 저장할 경우 많은 저장 공간이 필요하다.For example, in the case of Wikipedia, a string of data changes are made by multiple users on a single page. Therefore, a large amount of storage space is required when storing the string data of the data provisionance.
따라서, 이미 설명한 것처럼, 사전 인코딩부(21)는 데이터 프로버런스의 문자열 데이터는 숫자 데이터로 변경한다(S20).Therefore, as described above, the pre-encoding unit 21 changes the string data of the data probability to numeric data (S20).
이를 위해, 사전 인코딩부(21)는 입력된 프로버넌스 데이터를 분석하여 각 노드들과 가지들을 인코딩한다. To this end, the pre-encoder 21 analyzes the inputted proof data to encode each node and branches.
활동 노드의 수와 속성의 수는 다른 노드의 수에 비해 적은 개수를 가지고 있고, 프로버넌스 패턴 압축 시 활동 노드를 기반으로 압축하기 때문에 에이전트 노드, 메타데이터 노드 및 객체 노드를 인코딩하여 인코딩한 값을 저장한 데이터 테이블, 활동 노드를 인코딩하여 인코딩한 값을 저장한 활동 테이블, 속성을 인코딩하여 인코딩한 값을 저장한 술어 테이블로 나눠서 총 3개의 테이블에 인코딩 값을 저장한다. The number of activity nodes and attributes are smaller than the number of other nodes, and since the compression is based on the activity node when compressing the provenance pattern, the value encoded by encoding the agent node, metadata node, and object node The encoding values are stored in a total of three tables by dividing the data table that stores the data table, the activity table that stores the encoded values of the activity nodes, and the predicate table that stores the encoded values of the attributes.
이들 데이터 테이블, 활동 데이터 및 술어 테이블은 저장부(30)에 저장되거나사전 인코딩부(21)에 저장될 수 있다.These data tables, activity data, and predicate tables may be stored in storage 30 or in pre-encoding 21.
사전 인코딩에서는 입력된 프로버넌스 데이터를 분석하여 텍스트 인코딩을 통해 데이터를 인코딩한다. In the pre-encoding, the input proof data is analyzed and the data is encoded through text encoding.
텍스트 인코딩은 3개의 인코딩 방식으로 구분된다. Text encoding is divided into three encoding schemes.
즉, 텍스트 인코딩은 입력된 순서로 인코딩이 되며 처음 데이터가 입력되면 데이터를 분석하여 인코딩 테이블에 이미 인코딩된 데이터가 있는지 확인한다. 확인 후 인코딩된 데이터가 없으면 술어 테이블, 활동 테이블 및 데이터 테이블에 각각 해당하는 노드와 속성에 대한 데이터를 각각 인코딩하여 저장한다.That is, the text encoding is encoded in the input order. When the first data is input, the text is analyzed to check whether there is already encoded data in the encoding table. If there is no encoded data after checking, the data for nodes and attributes corresponding to the predicate table, the activity table, and the data table are respectively encoded and stored.
도 5와 같은 데이터 프로버넌스가 사전 인코딩 유닛(21)에 입력되는 경우를 가정한다. It is assumed that the data provision as shown in FIG. 5 is input to the pre-encoding unit 21.
도 5에 도시한 데이터 프로버넌스를 참고로 하면, 기존 '문서 B'에 메타데이터(M31)에 대응하는 DF 문서가 삽입되어 새로운 '문서 A'가 생성됨을 알 수 있다.Referring to the data provision shown in FIG. 5, it can be seen that a new 'Document A' is generated by inserting a DF document corresponding to the metadata M31 into an existing 'Document B'.
이처럼, 해당 형태의 데이터 프로버넌스가 입력되면 사전 인코딩부(21)는 저장부(30)에 저장되어 있는 사전 인코딩 테이블을 검색한다. As such, when the data provision of the type is input, the pre-encoding unit 21 searches for the pre-encoding table stored in the storage unit 30.
[표 2]는 저장부(30)에 저장된 사전 인코딩 테이블의 한 예이다. 만약 문서 A를 인코딩을 하면 우선적으로 사전 인코딩 테이블에서 데이터를 확인한 후 해당 데이터가 없을 경우 새로 ID를 부여한다. 새로운 ID로 인코딩 할 때는 |ID+1|을 한다. Table 2 is an example of a pre-encoding table stored in the storage unit 30. If document A is encoded, the data is first checked in the pre-encoding table, and a new ID is assigned if there is no data. When encoding with a new ID, | ID + 1 |
사전 인코딩부(21)에서 텍스트 인코딩을 통해 문자열을 숫자로 변환하는 인코딩함으로써 프로버넌스 데이터의 저장량이 감소된다. [표 2]의 사전 인코딩된 데이터와 같이 '문서 B'는 1, '2015.09.01.'은 2번에 인코딩된다. 추가적으로 입력된 '문서 A'의 ID는 데이터 테이블의 마지막 ID인 2에서 1을 더하여 3이 된다. 또한, 활동테이블은 별도의 테이블로 따로 사전 인코딩되기 때문에 삽입의 경우 기존의 변경이 ID가 1이기 때문에 ID는 2가 부여된다.The encoding amount of the provisional data is reduced by encoding the character string into a number through the text encoding in the pre-encoding section 21. Like the pre-encoded data in Table 2, 'Document B' is encoded at 1 and '2015.09.01.' Is encoded at # 2. In addition, the ID of the input document A becomes 3 by adding 2 to 1, the last ID of the data table. In addition, since the activity table is pre-encoded separately as a separate table, the ID is assigned to 2 because the existing change is 1 for the insert.
IDID | 스트링(string)String | 서브클래스Subclass | |
1One |
문서 B | 데이터data | |
22 | 2015.09.012015.09.01 | ||
33 |
문서 A |
||
44 | 지은Built | ||
55 | [a z b] [a y c][a z b] [a y c] | ||
1One |
변경 | 활동activity | |
22 | 삽입insertion | ||
1One | usedused |
술어 |
|
22 |
wasAssociatedWith |
||
33 |
time |
||
44 |
source |
||
55 | wasGeneratedBywasGeneratedBy |
위의 [표 2]와 같은 사전 인코딩 테이블에서, 각 해당 테이블(즉, 데이터 테이블, 활동 테이블 및 술어 테이블)에 해당하는 대상이 식별 번호(ID)를 순차적으로 '1'씩 증가시키면서 저장된다.In the pre-encoding table as shown in [Table 2] above, the target corresponding to each corresponding table (that is, the data table, the activity table, and the predicate table) is stored by sequentially increasing the identification number (ID) by '1'.
데이터 테이블에는 객체 노드, 에이전트 노드 및 메타데이터 노드의 정보가 저장되고, 활동 테이블에는 활동 노드에 대한 정보가 저장되며, 술어 테이블에는 속성 정보가 저장된다. Information about object nodes, agent nodes, and metadata nodes are stored in the data table, information about activity nodes is stored in the activity table, and attribute information is stored in the predicate table.
사전 인코딩된 데이터는 그래프와 인코딩에 반영된다. Pre-encoded data is reflected in graphs and encoding.
[표 2]와 같은 형태로 각 노드와 속성 등이 숫자열 데이터로 변경하면, 도 6와 같이 노드와 속성 등과 같은 PROV 모델의 모든 구성 요소들이 대응하는 숫자로 표기되는 숫자열 데이터 프로버런스가 생성되어 프로버넌스 압축 유닛(20)으로 입력된다.When each node and attribute are changed to numeric data in the form as shown in [Table 2], as shown in FIG. 6, the numerical data probe where all components of the PROV model such as the node and the attribute are represented by a corresponding number is shown. It is generated and input to the probe compression unit 20.
확장된 PROV 모델을 통해 생성된 데이터 프로버넌스에서는 변경할 RDF 데이터도 관리하고 있다. The data provisionance generated by the extended PROV model also manages the RDF data to be changed.
또한, RDF 데이터는 수많은 트리플로 구성되어 있기 때문에 많은 용량을 차지한다. 이에 따라, RDF 데이터가 대용량일 경우 많은 저장 공간을 차지하므로 압축 저장한다. 또한, 일반적으로 RDF 데이터는 주어와 목적어에 비해 술어의 양이 적다. In addition, since the RDF data is composed of numerous triples, it takes up a lot of capacity. Accordingly, if the RDF data is large, it takes up a lot of storage space and compresses and stores it. Also, RDF data generally has fewer predicates than subjects and objects.
따라서, 본 예의 경우, 최종 RDF 데이터(예, 최종 문서)에서 술어를 기준으로 동일한 술어 패턴을 가지는 RDF 그래프를 패턴으로 만든다. Thus, in this example, the RDF graph having the same predicate pattern based on the predicate in the final RDF data (eg, the final document) is patterned.
해당 패턴에 포함된 변수는 저장부(30)에 변수 테이블을 만들어 관리하고, 만들어진 패턴으로 각각의 최종 RDF 데이터를 변환하여 압축 저장한다.The variables included in the pattern are created and managed by creating a variable table in the storage unit 30, and converts each final RDF data into the created pattern and stores the compressed data.
이를 위해 최종 RDF 압축부(22)는 도 2와 같이 RDF 데이터 분선 단계(S311)와 텍스트 인코딩 단계(S312)로 이루어진 RDF 인코딩 단계(S31)와 패턴 추출 단계(S321)와 최종 문서 패턴 압축 단계(S322)로 이루어진 RDF 패턴 압축 단계(S32)를 구비하는 최종 RDF 압축 단계(S20)를 실시한다.To this end, the final RDF compression unit 22 includes an RDF encoding step S31 consisting of an RDF data segmentation step S311 and a text encoding step S312, a pattern extraction step S321, and a final document pattern compression step (FIG. 2). A final RDF compression step S20 having an RDF pattern compression step S32 consisting of S322 is performed.
처음 메타데이터에서 소스가 가리키고 있는 최종 문서(즉, 최종 RDF 문서)가 존재하며, 이 최종 문서는 시맨틱 웹 상의 문서를 뜻한다. Initially, there is a final document (ie, a final RDF document) that the source points to in the metadata, which is the document on the semantic web.
처음 메타데이터에 의해 최종 RDF 문서가 입력되면 RDF 데이터 분석 단계(S311)를 통해 문자열 데이터가 숫자 데이터로 변경된다. When the final RDF document is input by the first metadata, the string data is changed into numeric data through the RDF data analysis step S311.
이러한 숫자 데이터로의 변환 동작은 사전 인코딩부(21)에서 행해지는 인코딩 방식과 다른 방식으로 행해진다.This conversion into numeric data is performed in a manner different from the encoding scheme performed in the pre-encoding section 21.
즉, 사전 인코딩부(21)는 입력된 순으로 순차적으로 데이터가 인코딩 되지만 최종 RDF 압축부(22)는 주어와 목적어는 동일하게 숫자열로 인코딩하고 술어만 따로 숫자열로 인코딩한다. 인코딩된 최종 RDF 문서는 RDF 패턴 압축을 통해 압축된다. RDF 패턴 압축에서는 동일한 술어를 사용한 경우 패턴으로 만들어 저장부(30)에압축 저장한다.That is, the pre-encoding unit 21 encodes the data sequentially in the input order, but the final RDF compression unit 22 encodes the subject and the object in the same number string and encodes the predicate separately in the numeric string. The final encoded RDF document is compressed via RDF pattern compression. In the RDF pattern compression, when the same predicate is used, the pattern is compressed and stored in the storage unit 30.
이러한 최종 RDF 압축부(22)의 동작을 좀더 상세히 설명한다.The operation of this final RDF compression section 22 will be described in more detail.
최종 RDF 압축부(22)는 해당 데이터가 입력되면 저장부(30)에 저장되어 있는 최종 RDF 데이터 인코딩 테이블에서 해당하는 인코딩 ID가 있는지 검색한다. 만약 최종 RDF 데이터 인코딩 테이블에 해당 인코딩 ID가 존재하지 않을 경우 마지막 ID에서 더하기 1을 하여 인코딩한다.When the corresponding data is input, the final RDF compression unit 22 searches for the corresponding encoding ID in the final RDF data encoding table stored in the storage unit 30. If the corresponding encoding ID does not exist in the final RDF data encoding table, encoding is performed by adding 1 from the last ID.
이미 설명한 것처럼, 사전 인코딩 기법과 달리, 최종 RDF 압축부(22)의 인코딩은 주어와 목적어가 같이 인코딩되고 술어만 구별하여 인코딩되므로, 동사는 들어온 순서대로 각각 인코딩을 하고 주어와 목적어는 함께 인코딩한다. As described above, unlike the pre-encoding technique, since the encoding of the final RDF compression unit 22 is encoded together with the subject and the object, and only the predicate is encoded, the verbs are encoded in the order in which they are entered, and the subject and the object are encoded together. .
다음, [표 3]에 최종 RDF 압축부(21)의 RDF 데이터 분석 단계의 동작을 통해 생성된 최종 RDF 데이터 인코딩 테이블의 한 예를 도시한다.Next, [Table 3] shows an example of the final RDF data encoding table generated through the operation of the RDF data analysis step of the final RDF compression unit 21.
[표 3]에서 서브 클래스 '주어, 목적어' 부분의 스트링 부분에 기재된 요소들(A, B, G, C, O, X, P, J, Q, S, H, K, V)은 최종 RDF 문서에서 주어나 목적어로 사용된 단어(즉, 명사)(예를 들어, 논문, 김영철 등)이고, '술어' 부분의 스트링 부분에 기재된 요소들(D, F, G, Q, W, S)은 최종 RDF 문서에 술어로 사용되는 동사(예, 제출하다, 작성하다 등)이지만, 도시의 편의를 위해 이들 명사와 동사를 알파벳으로 도시한다.In Table 3, the elements (A, B, G, C, O, X, P, J, Q, S, H, K, V) described in the string part of the subclass 'subject, object' part are the final RDF. Elements (D, F, G, Q, W, S) that are words (i.e., nouns) (e.g., articles, Kim, Young-Chul, etc.) used as subjects or objects in a document Are verbs that are used as predicates in the final RDF document (eg, submit, compose, etc.), but these nouns and verbs are shown alphabetically for city convenience.
서브클래스Subclass | IDID | 스트링String | IDID | 스트링String |
주어, 목적어Subject | 1One | AA | 88 | PP |
22 | BB | 99 | JJ | |
33 | GG | 1010 | ||
44 | CC | 1111 | SS | |
55 | OO | 1212 | HH | |
66 | WW | 1313 | KK | |
77 | XX | 1414 | VV | |
술어terminology | 1One | DD | 55 | |
22 | FF | 66 | WW | |
33 | GG | 77 | SS | |
44 | PP | 88 | XX |
[표 3]을 참고로 하면, 최종 RDF 문서에서는 총 14의 다른 주어나 목적어 (A, B, G, C, O, X, P, J, Q, S, H, K, V)가 기재되어 있고, 총 8의 동사가 기재되어 있음을 알 수 있다.Referring to Table 3, the final RDF document lists a total of 14 different subjects or objects (A, B, G, C, O, X, P, J, Q, S, H, K, V). It can be seen that a total of eight verbs are described.
예를 들어, [표 3]에서 A가 이미 저장부(30)에 저장되어 있는 기존의 최종 RDF 데이터 인코딩 테이블에 존재할 경우, 기존의 테이블에 있는 것을 가져와 사용하지만 기존의 테이블에 존재하지 않는 주어나 목적어가 나타나면(예, K) 기존 테이블의 마지막 ID의 값(예, 12)에서 더하기 1(12+1=13)을 하여 새로운 값(13)을 갖는 ID로 인코딩된다. For example, in Table 3, if A exists in the existing final RDF data encoding table that is already stored in the storage unit 30, the existing table is imported and used but the subject does not exist in the existing table. When an object appears (eg K), it is encoded as an ID with a new value 13 by adding 1 (12 + 1 = 13) to the value of the last ID (eg 12) of the existing table.
술어의 경우, 반복적으로 나타나는 데이터가 많을 경우에도 한 번씩만 ID가 부여된다. 예를 들어, 술어 'D'와 'F'는 반복적으로 추출되더라고, 술어 'D'에는 1의 값을 갖는 ID가 부여되고 'F'에는 '2'의 값의 ID가 부여된다.In the case of predicates, an ID is assigned only once even when there is a large amount of repeated data. For example, even though the predicates 'D' and 'F' are repeatedly extracted, the predicate 'D' is assigned an ID having a value of 1 and the 'F' is assigned an ID of a value of '2'.
이처럼, 최종 RDF 문서가 분석되어 최종 RDF 데이터 인코딩 테이블이 작성되면(S311), 최종 RDF 압축부(22)는 텍스트 인코딩 단계(S312)로 넘어가 인코딩된 데이터를 이용한 프로버넌스 그래프(즉, 인코딩 프로버넌스 그래프)를 재작성한다.As such, when the final RDF document is analyzed and the final RDF data encoding table is created (S311), the final RDF compression unit 22 proceeds to the text encoding step S312, and a verification graph using the encoded data (that is, encoding pro- gram). Rebuild the Verification Graph.
*인코딩 프로버넌스 그래프의 한 예를 도 7에 도시한다. 일반적으로 알려진 것처럼, 도 7에서, 각 노드의 값은 '주어, 목적어' 부분에 부여된 해당하는 ID의 값이고, 두 노드 사이에 연결된 화살표의 방향은 해당 스트링이 주어나 목적어냐에 따라 정해지며, 화살표 위에 기재되는 숫자는 '술어' 부분에서 부여된 해당하는 ID의 값이다.An example of an encoding compliance graph is shown in FIG. As is generally known, in FIG. 7, the value of each node is the value of the corresponding ID given to the 'subject, object' part, and the direction of the arrow connected between the two nodes is determined according to whether the string is given or the object, The number listed above the arrow is the value of the corresponding ID given in the 'predicate' part.
RDF 데이터는 동사의 개수가 주어와 목적어의 개수보다 적고, 동일한 패턴의 동사를 가지는 특징이 있다. 이때, 동일한 패턴이란 주어와 목적어의 변수만 상이하고 동사의 순서가 동일한 것을 의미한다. 본 예에서는 이러한 특성을 이용하여 동일한 패턴이 나온 경우 주어와 목적어를 변수로 두어 패턴으로 추출한다.RDF data is characterized by having fewer verbs than the subject and object and having the same pattern of verbs. In this case, the same pattern means that only the variables of the subject and the object are different and the order of the verbs is the same. In this example, the same pattern is used to extract the pattern using the subject and the object as variables.
따라서, 최종 RDF 압축부(22)는 패턴 추출 단계(S321)에서 인코딩 프로버넌스 그래프를 이용하여 반복적으로 나타나는 그래프 패턴을 추출하고, 반복적으로 사용되고 있는 횟수가 설정 횟수 이상인 그래프 패턴을 저장부(30)의 패턴 저장부에 저장한다.Accordingly, the final RDF compression unit 22 extracts the graph pattern repeatedly displayed by using the encoding provenance graph in the pattern extraction step S321, and stores the graph pattern having the number of times that the number of times repeatedly being used is greater than or equal to the set number. In the pattern storage unit.
*도 8에, 한 예로서, 최종 RDF 문서에서 추출될 수 있는 그래프 패턴을 나타낸다. 도 8에서, 세 번 반복적으로 사용되고 있는 그래프 패턴 1(pattern1)은 동사 1과 동사 2이 반복되어 사용되고 있고, 두 번 반복되는 그래프 패턴 2(pattern2)는 동사 4와 동사 5가 반복되게 사용되고 있다.In FIG. 8, as an example, a graph pattern that can be extracted from the final RDF document is shown. In FIG. 8, verb pattern 1 (pattern1) that is used repeatedly three times is used by repeating verb 1 and verb 2, and verb pattern 4 and verb 5 that are repeated twice are used.
따라서, 도 9의 (a)와 (b) 처럼 두 개의 반복적인 그래프 패턴(pattern1, pattern2)이 추출되고, 이때, 추출된 그래프 패턴의 형태와 반복 횟수는 [표 4]와 같은 형태의 패턴 통계 테이블로 저장부(30)에 저장된다.Accordingly, two repetitive graph patterns (pattern1, pattern2) are extracted as shown in FIGS. 9A and 9B, and the shape and the number of repetitions of the extracted graph patterns are as shown in Table 4 below. The table is stored in the storage unit 30.
그래프 패턴 번호(ID)Graph pattern number (ID) |
반복 횟수Number of |
pattern 1pattern 1 | 33 |
pattern 2 |
33 |
패턴화하여 저장되는 그래프 패턴은 동사가 동일하게 사용됨으로 주어와 목적어만 변수로 관리하면 되므로, 추출된 그래프 패턴(pattern1, pattern2)의 각 노드에 대한 정보(주어 또는 목적어)는 [표 5]와 같은 형태의 그래프 패턴 변수 테이블에 저장된다.Since the graph patterns stored by patterning have to be managed as variables because only the subject and object are used as verbs, the information (main or object) for each node of the extracted graph pattern (pattern1, pattern2) is shown in [Table 5]. It is stored in the graph pattern variable table of the same type.
[표 5]는 도 9의 (a)에 도시한 그래프 패턴 1(pattern1)에 대한 그래프 패턴 변수 테이블의 일 예이다.Table 5 is an example of a graph pattern variable table for graph pattern 1 (pattern1) shown in FIG. 9A.
변수variable | 그래프 패턴을 찾은 순서Order of finding graph pattern | IDID |
?x? x | 1One | 1One |
22 | 33 | |
33 | 99 | |
?y? y | 1One | 44 |
22 | 1One | |
33 | 1010 | |
?z? z | 1One | 22 |
22 | 1212 | |
33 | 88 |
[표 5]을 참고로 하면, 그래프 패턴 1을 찾은 순서대로, 노드(?x)에 들어가는 정보(즉, 주어나 목적어)는 식별번호(ID) 1, 3, 9를 갖는 정보(표 3을 참고로 하면, A, G, J)이고, 노드(?y)에 들어가는 정보는 식별번호(ID) 1, 2, 3를 갖는 정보(표 3의 경우, A, B, G)이며, 노드(?z)에 들어가는 정보는 식별번호(ID) 2, 12, 8를 갖는 정보(표 3의 경우, B, H, P)이다.Referring to [Table 5], the information (that is, the subject or the object) entering the node (? X) in the order of finding the graph pattern 1 is the information having the identification numbers (ID) 1, 3, and 9 (Table 3). For reference, A, G, J), and the information contained in the node (? Y) is information having identification numbers (ID) 1, 2, 3 (A, B, G in Table 3), and the node ( information contained in? z is information having identification numbers (ID) 2, 12, and 8 (in the case of Table 3, B, H, and P).
이와 같은, 그래프 변수 테이블이 생성되면, 최종 RDF 압축부(22)는 최종 문서 패턴 압축 단계(S322)로 넘어가 추출된 반복되는 그래프 패턴(pattern1, pattern2)을 이용하여 최종 RDF 문서에 대한 데이터 패턴 압축 그래프(도 10 참조)를 생성한다.As such, when the graph variable table is generated, the final RDF compression unit 22 proceeds to the final document pattern compression step S322 and compresses the data pattern for the final RDF document by using the repeated graph patterns pattern1 and pattern2 extracted. Generate a graph (see FIG. 10).
최종 RDF 문서에 대한 프로버넌스는 데이터 압축 그래프로 압축되어 저장된다.Provenance for the final RDF document is compressed and stored as a data compression graph.
이미 설명한 것처럼, 추출된 각 그래프 패턴에 해당하는 데이터는 그래프 패턴 변수 테이블에 저장되고 각 그래프 패턴 ID는 그래프 패턴 변수 테이블과 패턴 통계 테이블에 의해 저장되어 관리되므로, 최종적으로, 최종 RDF 압축부(22)는 추출된 반복되는 그래프 패턴을 기준으로 변경된 노드로 저장하여 최종 RDF 문서의 그래프를 압축 저장한다(도 10 참조). 이때, [표 5]에 도시된 테이블을 기준으로 그래프 패턴의 이름이 정해지는데, 그래프 패턴의 이름과 함께 순서에 따라 이름이 정해진다.As described above, since the data corresponding to each extracted graph pattern is stored in the graph pattern variable table and each graph pattern ID is stored and managed by the graph pattern variable table and the pattern statistics table, the final RDF compression unit 22 ) Compresses and stores the graph of the final RDF document by storing the changed node based on the extracted repeating graph pattern (see FIG. 10). At this time, the name of the graph pattern is determined based on the table shown in [Table 5], the name is determined in order with the name of the graph pattern.
프로버넌스 데이터를 처리하는 패턴은 동일하게 반복되는 경우가 많다. 예를 들어, 문서 사용의 패턴을 보면 그 문서를 생성한 후 사용자들이 사용하다가 필요한 부분을 변경 하는 등 여러 가지의 문서에 대해 유사하거나 동일한 사용 패턴을 보인다. 따라서, 본 예의 프로버넌스 패턴 압축부(23)는 이를 이용하여 반복되는 사용 패턴을 추출하여 압축 저장한다. The pattern for processing the provenance data is often repeated the same. For example, the pattern of document usage shows similar or identical usage patterns for various documents, such as creating a document and then changing the parts that users need to use. Therefore, the provision pattern compression unit 23 of the present example extracts and compresses and stores the repeated use pattern using the same.
최종 RDF 압축부(22)와 비교 시, 프로버넌스 패턴 압축부(23)의 압축 동작은 처리되는 대상만 상이할 뿐 최종 RDF 압축부(22)와 실질적으로 동일한 방식으로 압축되지만, 압축할 때의 규칙이 다르다.Compared with the final RDF compression section 22, the compression operation of the provisional pattern compression section 23 is compressed in substantially the same manner as the final RDF compression section 22, except that only the object to be processed is different, but when the compression Rules are different.
최종 RDF 압축부(22)에서는 술어를 기준으로 동일한 패턴을 추출하지만 프로버넌스 패턴 압축부(23) 에서는 활동 노드를 기준으로 동일한 패턴을 추출한다. The final RDF compression unit 22 extracts the same pattern based on the predicate, but the provisional pattern compression unit 23 extracts the same pattern based on the active node.
처음 사전 인코딩부(21)에서 출력되는 문자열 데이터가 숫자 데이터로 변경된 숫자열 데이터 프로버런스가 프로버넌스 패턴 압축부(23)로 입력되면, 프로버넌스 패턴 압축부(23)는 숫자열 데이터 프로버런스에서 활동(activity)을 기준으로 서브 그래프를 생성한다(S41). When the numeric string data prober whose first string data output from the pre-encoding unit 21 is converted into numeric data is input to the provisional pattern compression unit 23, the provisional pattern compression unit 23 receives the numeric string data. A subgraph is generated based on the activity in the probever (S41).
다음, 프로버넌스 패턴 압축부(23)는 생성된 서브 그래프를 저장부(30)의 서브 그래프 통계 테이블에 저장하고 동일하게 반복되는 서브 그래프를 추출한다(S42). Next, the provision pattern compression unit 23 stores the generated subgraph in the subgraph statistics table of the storage unit 30 and extracts the same subgraph repeatedly (S42).
예를 들어, 문서의 이력 중 '삽입'이라는 활동 뒤에 항상 '변경'이 일어나면, '삽입'과 '변경' 순으로 표현된 프로버넌스 그래프를 서브 그래프로 추출한다.For example, if 'change' always occurs after an activity called 'insert' in the history of the document, extract the Provenance graph expressed in the order of 'insert' and 'change' as a subgraph.
이때, 프로버넌스 패턴 압축부(23)는 추출된 해당 서브 그래프의 출현 횟수와 설정 횟수를 비교하여 출현 횟수가 설정 횟수 이상이면 해당 서브 그래프를 기준 패턴이라 명하고 이를 압축하여 저장부(30)에 저장한다.At this time, the probe pattern compression unit 23 compares the number of occurrences of the extracted subgraph with the set number of times, and if the number of occurrences is equal to or more than the set number of times, the corresponding subgraph is referred to as a reference pattern and compressed and stored. Store in
도 11은 숫자열 데이터 프로버넌스에서 서브 그래프를 추출하는 과정을 나타낸다. 도 11에 도시한 것처럼 활동 데이터를 기준으로 서브 그래프가 생성되고, 서브 그래프가 생성된다. 11 illustrates a process of extracting a subgraph from numeric data data provisioning. As illustrated in FIG. 11, a subgraph is generated based on the activity data, and a subgraph is generated.
반복되는 패턴을 갖는 서브 그래프를 추출할 때, 최근에 사용되지 않는 패턴(즉, 정해진 시간 동안 사용되지 않는 패턴)은 저장부(30)에서 삭제한다. When extracting a subgraph having a repeated pattern, a pattern not recently used (ie, a pattern not used for a predetermined time) is deleted from the storage unit 30.
*반복되는 서브 그래프가 설정 횟수 이상 추출되면, 해당 서브 그래프에 관련된 통계 데이터는 저장부(30)에 저장되어 있는[표 6]과 같은 형태의 서브 그래프 통계 테이블에 기록된다.When the repeated subgraph is extracted more than a set number of times, the statistical data related to the subgraph is recorded in the subgraph statistics table of the form shown in [Table 6] stored in the storage unit 30.
서브 그래프Subgraph | 반복 횟수Number of iterations |
sub1sub1 | 22 |
sub2sub2 | 1One |
sub3sub3 | 1One |
sub4sub4 | 1One |
이처럼, 서브 그래프가 생성된 뒤 각 서브 그래프의 횟수 정보는 서브 그래프 통계 테이블로 관리된다.As such, after the subgraph is generated, the number of times of each subgraph is managed by the subgraph statistics table.
[표 6]과 같이, 서브 그래프 통계 테이블에는 서브 그래프가 나타난 횟수가 기록되며, 이미 설명한 것처럼 나타난 횟수가 설정 횟수 이상이면 기준 패턴으로 압축된 후 저장부(30)에 저장된다. 이때, 설정 횟수는 한계 값으로 지정되며 처리 데이터에 따라 이 값은 변경된다. 도 11에서 추출 될 수 있는 모든 서브 그래프는 서브 그래프 통계 테이블에 계수된다.As shown in [Table 6], the number of times the subgraph appears is recorded in the subgraph statistics table. If the number of times indicated above is the set number or more, it is compressed into a reference pattern and stored in the storage unit 30. At this time, the set number of times is designated as a limit value and this value is changed according to the processing data. All subgraphs that can be extracted in FIG. 11 are counted in the subgraph statistics table.
도 12에 기준 패턴의 한 예를 도시한다.12 shows an example of the reference pattern.
이처럼, 기준 패턴이 생성되면, 프로버넌스 패턴 압축부(23)는 그림 13와 같이 패턴 압축된 후 저장된다(S43). As such, when the reference pattern is generated, the provisional pattern compression unit 23 is stored after the pattern is compressed as shown in FIG. 13 (S43).
도 13은 본 예에 따라 패턴 압축된 프로버넌스 그래프이다. Fig. 13 is a pattern compressed proof graph according to the present example.
본 예의 경우, 추출된 서브 그래프 중 동일한 서브 그래프가 나오면 반복되는 서브 그래프를 기준 패턴으로 하여 저장한다. 기준 패턴으로 생성되며 표 7과 같이 스트링 데이터로 변환되어 저장된다. 최종 결과는 기준패턴으로 변환된 노드로 저장하여 프로버넌스 데이터의 그래프를 압축 저장한다.In this example, when the same subgraph is found among the extracted subgraphs, the repeated subgraph is stored as a reference pattern. It is generated as a reference pattern and is converted into string data and stored as shown in Table 7. The final result is stored as a node converted into a reference pattern to compress and store the graph of the provenance data.
기준패턴1-1Reference Pattern 1-1 | 기준패턴1-2Reference pattern 1-2 | 기준패턴2-1Reference pattern 2-1 | 기준패턴2-1Reference pattern 2-1 |
문서C/문서F/문서XDocument C / Document F / Document X | 문서W/문서Q/문서PDocument W / Document Q / Document P | 문서A/문서P/문서VDocument A / Document P / Document V | 문서K/문서Y/문서FDocument K / Document Y / Document F |
[표 7]에서, 기준 패턴은 두 개(기준패턴1, 기준패턴 2)이고, 첫 번째로 나타난 기준 패턴1(기준패턴1-1)은 문서 C, 문서 F 및 문서 X가 관련되어 있고, 기준 패턴은 두 개(기준패턴1, 기준패턴 2)이고, 첫 번째로 나타난 기준 패턴1(기준패턴1-1)은 문서 C, 문서 F 및 문서 X가 관련되어 있고, 두 번째로 나타난 기준 패턴1(기준패턴1-2)은 문서 W, 문서 Q 및 문서 P가 관련되어 있다.In [Table 7], two reference patterns (reference pattern 1, reference pattern 2), the first reference pattern 1 (reference pattern 1-1) is related to document C, document F and document X, There are two reference patterns (reference pattern 1 and reference pattern 2), and the first reference pattern 1 (reference pattern 1-1) is related to document C, document F and document X, and the second reference pattern Document 1, document Q, and document P are associated with 1 (reference pattern 1-2).
또한, 첫 번째로 나타난 기준 패턴2(기준패턴2-1)은 문서 A, 문서 P 및 문서 V가 관련되어 있고, 두 번째로 나타난 기준 패턴2(기준패턴2-2)은 문서 K, 문서 Y 및 문서 F가 관련되어 있다.In addition, the first reference pattern 2 (reference pattern 2-1) is associated with document A, document P, and document V, and the second reference pattern 2 (reference pattern 2-2) is document K, document Y. And document F are related.
이와 같이, 최종 RDF 문서 자체에 대한 처리를 최종 RDF 압축부(22)서 이루어지고, 최종 RDF 문서의 이력 정보에 대한 처리는 프로버넌스 패턴 압축부(23)에서 행해져, 최종 RDF 문서와 이력 정보의 관리 동작이 별개로 이루어진다.In this way, the final RDF document itself is processed by the final RDF compression unit 22, and the processing on the history information of the final RDF document is performed by the provisional pattern compression unit 23, so that the final RDF document and the history information are processed. The management operation of takes place separately.
기존의 PROV 모델은 변경한 시간과 변경된 원본 RDF 문서를 표현하지 못하기 때문에, 본 예에서는 프로버넌스 데이터를 표현하기 위해 기준의 PRVO 모델을 확장한 확장된 PROV 모델을 이용하여 대용량의 RDF 프로버넌스 데이터를 관리하기 위한 압축 방법을 제안한다.Since the existing PROV model does not represent the time of change and the original RDF document changed, in this example, a large amount of RDF provention is made by using an extended PROV model that extends the standard PRVO model to represent the proof data. We propose a compression method for managing data.
또한, 프로버넌스 데이터가 문자열 데이터로 표현되기 때문에 사전 인코딩을 통해 PROV 모델의 모든 데이터를 숫자 데이터로 저장하고, 이로 인해, 사전 인코딩을 통해 문자열 데이터를 숫자 데이터로 저장함으로써 저장량이 감소된다.In addition, since the provenance data is represented as string data, all data of the PROV model is stored as numeric data through pre-encoding, which reduces the amount of storage by storing the string data as numeric data through pre-encoding.
또한, 기존의 PROV 모델과는 달리 확장된 PROV 모델에서는 변경되거나 추가될 최종 RDF 문서를 다루고 있으므로 이력 추적이 용이하다.In addition, unlike the existing PROV model, the extended PROV model handles the final RDF document to be changed or added, making history tracking easier.
더욱이, 본 예는 기존의 PROV 모델과 달리 최종 RDF 문서를 관리하기 때문에 최종 RDF 문서의 저장 공간이 많이 차지하는 것을 방지하기 위해 원본 RDF 압축을 통해 원본 RDF 문서를 압축한다.Furthermore, since this example manages the final RDF document, unlike the existing PROV model, the original RDF document is compressed through the original RDF compression to prevent the storage space of the final RDF document from occupying much.
마지막으로, 본 예의 경우, PROV 모델에서 데이터 활동 노드의 중복되는 부분은 서브 그래프로 만들어 압축 저장함으로써 데이터의 사용 이력을 고려하여 프로버넌스 데이터를 압축한다.Finally, in the case of this example, the redundant portion of the data activity node in the PROV model is compressed into a subgraph to store the compressed data in consideration of the usage history of the data.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.Although the embodiments of the present invention have been described in detail above, the scope of the present invention is not limited thereto, and various modifications and improvements of those skilled in the art using the basic concepts of the present invention defined in the following claims are also provided. It belongs to the scope of rights.
Claims (5)
- 이력 정보와 최종 문서를 입력받아 프로버넌스 모델을 이용하여 데이터 프로버넌스를 생성하는 프로버넌스 생성부,Probability generation unit for receiving the historical information and the final document to generate data provision by using the provision model,상기 프로버넌스 생성부와 연결되어 있고, 상기 데이터 프로번스의 문자열 데이터를 숫자열 데이터로 사전 인코딩하여 사전 인코딩 테이블에 저장하고 숫자열 데이터 프로버런스를 출력하는 사전 인코딩부,A pre-encoding unit which is connected to the provisioning generation unit, pre-encodes string data of the data provisions into numeric string data, stores it in a pre-encoding table, and outputs numeric string data provisionance;상기 사전 인코딩부와 연결되어 있고, 상기 숫자열 데이터 프로버런스를 입력받아 주어와 목적어를 함께 숫자열로 인코딩하고 술어만을 따로 숫자열로 인코딩하여 최종 RDF 데이터 인코딩 테이블에 저장하고, 상기 최종 RDF 데이터 인코딩 테이블에 저장된 데이터를 이용하여 인코딩 프로버넌스 그래프를 생성하며, 생성된 인코딩 프로버넌스 그래프를 이용하여 반복되는 그래프 패턴을 추출한 후, 추출된 그래프 패턴의 반복 횟수를 패턴 통계 테이블에 저장하고, 추출된 그래프 패턴을 찾은 순서에 대응하게 추출된 그래프 패턴의 각 노드에 대한 주어나 목적어를 그래프 패턴 변수 테이블에 저장하고, 상기 그래프 패턴 변수 테이블에 저장된 값을 이용하여 최종 문서에 대한 데이터 패턴 압축 그래프를 생성하는 최종 RDF 압축부, 그리고It is connected to the pre-encoding unit, receives the numeric string data conference, encodes a subject and object together into a numeric string, encodes only predicates into a numeric string, and stores the final RDF data encoding table, and stores the final RDF data. After generating the encoding graph by using the data stored in the encoding table, extracting the repeated graph pattern using the generated encoding probability graph, and stores the number of iterations of the extracted graph pattern in the pattern statistics table, Saves the subject or object for each node of the extracted graph pattern in the graph pattern variable table corresponding to the order of finding the extracted graph pattern, and compresses the data pattern for the final document using the values stored in the graph pattern variable table. The final RDF compression section, and상기 사전 인코딩부와 연결되어 있고, 상기 숫자열 데이터 프로버런스를 입력받아 활동 데이터를 기준으로 하여 상기 숫자열 데이터 프로버런스에서 반복되는 패턴을 갖는 서브 그래프를 생성하고, 반복되는 패턴을 갖는 서브 그래프의 횟수 정보를 서브 그래프 통계 테이블에 저장하며, 상기 반복되는 패턴을 갖는 서브 그래프가 설정 횟수이상 나타나면, 상기 반복되는 패턴을 갖는 서브 그래프를 기준 패턴으로 정하고 프로버넌스 패턴 압축부A subgraph having a repeating pattern connected to the pre-encoding unit, receiving the sequence data provisional, and having a pattern repeated in the sequence data provisional based on activity data; The number of times of the graph is stored in the subgraph statistics table, and when the subgraph having the repeated pattern is displayed more than the set number of times, the subgraph having the repeated pattern is defined as the reference pattern and the provision pattern compression unit를 포함하는 프로버넌스 관리를 위한 압축 장치.Compression device for management of probabilities comprising a.
- 제1항에서, In claim 1,상기 프로버넌스 모델은 객체 노드, 에이전트 노드, 활동 노드 및 시간에 대한 정보와 소스에 대한 정보를 구비한 메타데이터 노드를 포함하는 프로버넌스 관리를 위한 압축 장치.The provisioning model includes an object node, an agent node, an activity node, and a metadata node having information on time and information on a source.
- 제1항에서, In claim 1,사전 인코딩부는 에이전트 노드, 메타데이터 노드 및 객체 노드를 인코딩하하여 인코딩 값을 데이터 테이블에 저장하고, 활동 노드를 인코딩하여 인코딩 값을 활동 테이블에 저장하며, 속성을 인코딩하여 인코딩 값을 술어 테이블에 저장하는 프로버넌스 관리를 위한 압축 장치.The pre-encoding unit encodes agent nodes, metadata nodes, and object nodes to store encoding values in a data table, encodes activity nodes to store encoding values in an activity table, and encodes attributes to store encoding values in a predicate table. Compression device for provisioning management.
- 이력 정보와 최종 문서를 입력받아 프로버넌스 모델을 이용하여 데이터 프로버넌스를 생성하는 단계, Receiving data of the history and the final document and generating data provisioning using the provisioning model,상기 데이터 프로번스의 문자열 데이터를 숫자열 데이터로 사전 인코딩하여 사전 인코딩 테이블에 저장하고 숫자열 데이터 프로버런스를 출력하는 단계, Pre-encoding the string data of the data probes into numeric string data, storing the string data in a pre-encoding table, and outputting a numeric string data probe;상기 숫자열 데이터 프로버런스를 입력받아 주어와 목적어를 함께 숫자열로 인코딩하고 술어만을 따로 숫자열로 인코딩하여 최종 RDF 데이터 인코딩 테이블에 저장하고, 상기 최종 RDF 데이터 인코딩 테이블에 저장된 데이터를 이용하여 인코딩 프로버넌스 그래프를 생성하는 단계,Receives the numeric string data conference and encodes a subject and object together into a numeric string, encodes only predicates separately into a numeric string, and stores the final RDF data encoding table and encodes the data using the data stored in the final RDF data encoding table. Generating a provisioning graph,생성된 인코딩 프로버넌스 그래프를 이용하여 반복되는 그래프 패턴을 추출한 후, 추출된 그래프 패턴의 반복 횟수를 패턴 통계 테이블에 저장하고, 추출된 그래프 패턴을 찾은 순서에 대응하게 추출된 그래프 패턴의 각 노드에 대한 주어나 목적어를 그래프 패턴 변수 테이블에 저장하는 단계, 그리고After extracting the repeated graph pattern by using the generated encoding probence graph, the repeated number of the extracted graph pattern is stored in the pattern statistics table, and each node of the extracted graph pattern corresponds to the order of finding the extracted graph pattern. Storing the subject or object for in the graph pattern variable table, and상기 그래프 패턴 변수 테이블에 저장된 값을 이용하여 최종 문서에 대한 데이터 패턴 압축 그래프를 생성하는 단계Generating a data pattern compression graph for the final document using the values stored in the graph pattern variable table;를 포함하는 프로버넌스 관리를 위한 압축 방법.Compression method for provisioning management comprising a.
- 제4항에서, In claim 4,상기 프로버넌스 모델은 객체 노드, 에이전트 노드, 활동 노드 및 시간에 대한 정보와 소스에 대한 정보를 구비한 메타데이터 노드를 포함하는 프로버넌스 관리를 위한 압축 방법.And the provisioning model comprises an object node, an agent node, an activity node, and a metadata node having information about a time and a source.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160053651A KR101783791B1 (en) | 2016-05-01 | 2016-05-01 | Compression apparatus and method for managing provenance |
KR10-2016-0053651 | 2016-05-01 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2017191877A1 true WO2017191877A1 (en) | 2017-11-09 |
Family
ID=60139054
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/KR2016/013271 WO2017191877A1 (en) | 2016-05-01 | 2016-11-17 | Compression device and method for managing provenance |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR101783791B1 (en) |
WO (1) | WO2017191877A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4199361A1 (en) * | 2021-12-17 | 2023-06-21 | Dassault Systèmes | Compressed graph notation |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110727683B (en) * | 2019-09-30 | 2024-04-26 | 杭州久益机械股份有限公司 | Distributed compressor state monitoring data encoding method and monitoring method |
KR102597181B1 (en) * | 2020-12-29 | 2023-11-02 | 케이웨어 (주) | Data management server for managing metadata and control method thereof |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126399A1 (en) * | 2006-06-29 | 2008-05-29 | Macgregor Robert M | Method and apparatus for optimizing data while preserving provenance information for the data |
US9053437B2 (en) * | 2008-11-06 | 2015-06-09 | International Business Machines Corporation | Extracting enterprise information through analysis of provenance data |
US9069808B2 (en) * | 2009-05-20 | 2015-06-30 | International Business Machines Corporation | Indexing provenance data and evaluating provenance data queries in data processing systems |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8229775B2 (en) | 2008-11-06 | 2012-07-24 | International Business Machines Corporation | Processing of provenance data for automatic discovery of enterprise process information |
US9058308B2 (en) | 2012-03-07 | 2015-06-16 | Infosys Limited | System and method for identifying text in legal documents for preparation of headnotes |
-
2016
- 2016-05-01 KR KR1020160053651A patent/KR101783791B1/en active IP Right Grant
- 2016-11-17 WO PCT/KR2016/013271 patent/WO2017191877A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080126399A1 (en) * | 2006-06-29 | 2008-05-29 | Macgregor Robert M | Method and apparatus for optimizing data while preserving provenance information for the data |
US9053437B2 (en) * | 2008-11-06 | 2015-06-09 | International Business Machines Corporation | Extracting enterprise information through analysis of provenance data |
US9069808B2 (en) * | 2009-05-20 | 2015-06-30 | International Business Machines Corporation | Indexing provenance data and evaluating provenance data queries in data processing systems |
Non-Patent Citations (5)
Title |
---|
BOK, KYUNG SOO ET AL.: "Provenance Compression Scheme Considering RDF Graph Patterns", THE JOURNAL OF THE KOREA CONTENTS ASSOCIATION, 1 February 2016 (2016-02-01), pages 374 - 386, XP055436479 * |
HAN, JI EUN ET AL.: "An Efficient RDF Compression Scheme Considering Duplication of RDF Documents", PROCEEDINGS OF THE KOREAN INSTITUTE OF INFORMATION SCIENTISTS AND ENGINEERS CONFERENCE, 1 December 2015 (2015-12-01), pages 112 - 114, XP055436478 * |
HAN, JI EUN ET AL.: "Efficient RDF Provenance Compression Scheme Considering Duplication", PROCEEDINGS OF THE KOREA CONTENTS ASSOCIATION CONFERENCE, 1 May 2015 (2015-05-01), pages 75 - 76, XP055436475 * |
MCGLOTHLIN, JAMES P. ET AL.: "Efficient RDF Data Management Including Provenance and Uncertainty", PROCEEDINGS OF THE FOURTEENTH INTERNATIONAL DATABASE ENGINEERING & APPLICATIONS SYMPOSIUM (IDEAS 10, 14 August 2010 (2010-08-14), XP058351748 * |
ZHAO, JUN ET AL.: "Provenance Requirements for the Next Version of RDF", W3C WORKSHOP RDF NEXT STEPS, 2010, XP055436472 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4199361A1 (en) * | 2021-12-17 | 2023-06-21 | Dassault Systèmes | Compressed graph notation |
Also Published As
Publication number | Publication date |
---|---|
KR101783791B1 (en) | 2017-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105868204B (en) | A kind of method and device for converting Oracle scripting language SQL | |
US6658377B1 (en) | Method and system for text analysis based on the tagging, processing, and/or reformatting of the input text | |
WO2010087566A1 (en) | Document analysis system | |
WO2010120101A2 (en) | Keyword-recommending method using inverse vector space model and apparatus for same | |
WO2017191877A1 (en) | Compression device and method for managing provenance | |
WO2011122724A1 (en) | Code inspection executing system for performing a code inspection of abap source codes | |
WO2010050675A2 (en) | Method for automatically extracting relation triplets through a dependency grammar parse tree | |
JP2000315216A (en) | Method and device for retrieving natural language | |
CN108228701A (en) | A kind of system for realizing Chinese near-nature forest language inquiry interface | |
WO2012165709A1 (en) | Instance path searching and visualizing method and device | |
WO2012130145A1 (en) | Method and device for acquiring and searching for relevant knowledge information | |
WO2022030670A1 (en) | Framework deep learning system and method using query | |
US11301441B2 (en) | Information processing system and information processing method | |
JP2008021270A (en) | Data conversion apparatus and its method, database management apparatus and its method, and database search system and its method | |
Paiva et al. | Nomlex-pt: A lexicon of portuguese nominalizations | |
WO2011068315A4 (en) | Apparatus for selecting optimum database using maximal concept-strength recognition technique and method thereof | |
WO2018212536A1 (en) | Device for providing detailed numerical information of content | |
WO2017159906A1 (en) | Data structure for determining translation order of words included in source language text, program for generating data structure, and computer-readable storage medium storing same | |
WO2022145503A1 (en) | Method for providing semantic rest api | |
WO2014092360A1 (en) | Method for evaluating patents based on complex factors | |
WO2024019225A1 (en) | Method for processing structured data and unstructured data in a plurality of different databases, and data processing platform providing same method | |
WO2024019224A1 (en) | Method for processing structured data and unstructured data in database, and data processing platform for providing method | |
WO2018139777A1 (en) | Numerical information management device using data structure | |
WO2024071504A1 (en) | Method for processing structured data and unstructured data by assigning resources of different processes, and data processing system for providing method | |
WO2018139778A1 (en) | Numerical information management device enabling numerical information search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 16901103 Country of ref document: EP Kind code of ref document: A1 |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 16901103 Country of ref document: EP Kind code of ref document: A1 |